nano-vllm

该项目是用 Python 实现的轻量级 vLLM(大语言模型推理引擎)项目,核心代码仅 1000 多行。它结构清晰、易于阅读,推理速度媲美 vLLM 原版,并集成了前缀缓存(Prefix Caching)、张量并行(Tensor Parallelism)和 Torch 编译等推理优化技术。

点击访问

© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容