2.1. vLLM¶
vLLM是高效易用的大语言模型推理库,基于PagedAttention高效地进行attention key和value的内存管理,提高实时场景下大语言模型服务的吞吐与内存使用效率。
作为一个使用Python编写的开源推理库,vLLM紧跟业界发展趋势快速迭代,支持量化模型推理、multi-lora、chunked prefill、Speculative decoding推理等特性。总之,vLLM因其易用性和先进性得到了广泛的关注和应用。
2.2. vLLM-gcu¶
vLLM-gcu是适配于燧原S60 gcu的vLLM插件,用于支持在Enflame gcu上运行大语言模型和视觉大语言模型的推理。
vLLM-gcu维持vLLM中的模型推理、request调度策略,只是在Enflame gcu设备端完成相关算子地高效计算。
此插件是 vLLM 社区推荐的支持 GCU 后端的方法。它遵循 [RFC] 中概述的原则:硬件可插拔,提供硬件可插拔接口,从而解耦 GCU 与 vLLM 的集成。
vLLM-gcu当前支持MLA backend。
2.3. 版本信息与使用注意事项¶
当前vLLM-gcu是与Enflame gcu适配的vLLM 0.9.2版本,其使用方式与vLLM 0.9.2版本基本一致,但具备如下特性:
推理时,需设置
--device=gcu;attention计算,仅支持flash-attn和xformers backend;
v0 engine:支持flash-attn和xformers backend
v1 engine:支持flash-attn backend
默认关闭vllm统计信息收集;
默认关闭async output process功能;
multi-process executor不支持fork方式,默认使用spawn方式启动;
top-p等后处理使用原精度计算;
seq 32k以上不默认开启chunked-prefill功能;
默认关闭推理错误时自动dump输入数据功能;