nano-vllm阿鬼39天前发布关注私信0811该项目是用 Python 实现的轻量级 vLLM(大语言模型推理引擎)项目,核心代码仅 1000 多行。它结构清晰、易于阅读,推理速度媲美 vLLM 原版,并集成了前缀缓存(Prefix Caching)、张量并行(Tensor Parallelism)和 Torch 编译等推理优化技术。点击访问© 版权声明 1本站名称:欧鬼工坊 2本站网址:https://blog.ohghost.com 3文章内容来源网络,仅供学习参考,如有侵权请联系站长删除。THE ENDGitHub项目喜欢就支持一下吧点赞11 分享QQ空间微博QQ好友海报分享复制链接收藏5
暂无评论内容