2.1. vLLM

vLLM是高效易用的大语言模型推理库,基于PagedAttention高效地进行attention key和value的内存管理,提高实时场景下大语言模型服务的吞吐与内存使用效率。

作为一个使用Python编写的开源推理库,vLLM紧跟业界发展趋势快速迭代,支持量化模型推理、multi-lora、chunked prefill、Speculative decoding推理等特性。总之,vLLM因其易用性和先进性得到了广泛的关注和应用。

2.2. vLLM-gcu

vLLM-gcu是适配于燧原S60 gcu的vLLM,用于支持在Enflame gcu上运行大语言模型和视觉大语言模型的推理。

vLLM-gcu维持vLLM中的模型推理、request调度策略,只是在Enflame gcu设备端完成相关算子地高效计算。

2.3. 版本信息与使用注意事项

当前vLLM-gcu是与Enflame gcu适配的vLLM 0.6.1.post2版本,其使用方式与vLLM 0.6.1.post2版本基本一致,但具备如下特性:

  • 推理时,需设置--device=gcu

  • attention计算,仅支持xformers backend;

  • 默认关闭vllm统计信息收集;

  • 默认关闭async output process功能;

  • multi-process executor不支持fork方式,默认使用spawn方式启动;

  • top-p等后处理使用原精度计算;

  • seq 32k以上不默认开启chunked-prefill功能;

  • 默认关闭推理错误时自动dump输入数据功能;