vLLM-gcu(v0.8.0)用户使用手册¶
vLLM-gcu是适配于燧原S60 gcu的vLLM,用于支持在Enflame gcu上运行各LLM的推理。
目录
- 1. 版权声明
- 2. 总体介绍
- 3. 安装
- 4. 使用指南
- 5. 模型推理及性能评估指南
- 5.1. 已支持的大语言模型列表
- 5.2. chatglm3
- 5.3. DeepSeek
- 5.4. GLM4
- 5.5. InternLM
- 5.6. Llama
- Llama2-70b
- Meta-Llama-3-8B
- Meta-Llama-3-70B
- Llama2-13b-w8a16_gptq
- Llama2-70b-w8a16_gptq
- Llama3-8b-w8a16_gptq
- Llama3-70b-w8a16_gptq
- Meta-Llama-3.1-8B-Instruct
- Meta-Llama-3.1-70B-Instruct
- Llama3-70b-w4a16
- Llama2-70b-w4a16c8
- Llama2-70b-w8a8c8
- Meta-Llama-3.1-70B-Instruct-w4a16
- Meta-Llama-3.1-70B-Instruct_W8A8C8
- Llama-3.3-70B-Instruct
- 5.7. Qwen
- 5.8. Yi
- 5.9. Jina
- 5.10. Alibaba-NLP
- 6. 多模态模型