vLLM-GCU 用户使用手册¶
vLLM-GCU 是适配于燧原S60 GCU 的 vLLM,用于支持在 Enflame GCU 上运行各 LLM 的推理。
目录
- 1. 前言
- 2. 安装
- 3. 模型推理及性能评估指南
- 3.1. Aquila
- 3.2. baichuan2
- 3.3. bloom
- 3.4. CharacterGLM
- 3.5. chatglm2/3
- 3.6. CodeGeeX
- 3.7. codellama
- 3.8. dbrx
- 3.9. deepseek
- 3.10. gemma
- 3.11. glm4
- 3.12. gpt-j
- 3.13. gpt-neox
- 3.14. iFlytekSpark
- 3.15. internlm
- 3.16. llama
- llama-65b
- llama2-7b
- llama2-13b
- llama2-70b
- chinese-llama-2-7b
- chinese-llama-2-7b-16k
- chinese-llama-2-13b
- chinese-llama-2-13b-16k
- Meta-Llama-3-8B
- Meta-Llama-3-70B
- llama2-7b-w8a16_gptq
- llama2-13b-w8a16_gptq
- llama2-70b-w8a16_gptq
- llama3-8b-w8a16_gptq
- llama3-70b-w8a16_gptq
- Meta-Llama-3.1-8B-Instruct
- llama2-7b-w4a16
- Meta-Llama-3.1-70B-Instruct
- llama3-70b-w4a16
- llama2-7b-w4a16c8
- llama2-70b-w4a16c8
- Llama-2-13B-chat-GPTQ
- llama2-70b-w8a8c8
- Meta-Llama-3.1-70B-Instruct-w4a16
- llama2_7b_chat_w8a8c8
- Meta-Llama-3.1-70B-Instruct_W8A8C8
- 3.17. Mistral
- 3.18. opt
- 3.19. Orion
- 3.20. Qwen
- Qwen-1_8B-Chat
- Qwen-7B
- Qwen-7B-Chat
- Qwen-14B-Chat
- Qwen-72B-Chat
- Qwen1.5-7B
- Qwen1.5-14B-Chat
- Qwen1.5-32B
- Qwen1.5-72B-Chat
- Qwen1.5-14B-Chat-w8a16_gptq
- Qwen-14B-Chat-w8a16_gptq
- Qwen-72B-Chat-w8a16_gptq
- Qwen1.5-32B-w8a16_gptq
- Qwen1.5-MoE-A2.7B
- Qwen2-7B
- Qwen-7B-Instruct
- Qwen2-72B-padded-w8a16_gptq
- Qwen2-72B-Instruct
- Qwen2-1.5B-Instruct
- Qwen1.5-4B
- Qwen1.5-4B-Chat
- Qwen1.5-32B-Chat-w8a16_gptq
- Qwen1.5-72B-w8a16_gptq
- Qwen1.5-72B-Chat-w8a16_gptq
- Qwen1.5-32B-w4a16
- qwen2-72b-instruct-gptq-int4
- qwen2-72b-instruct-gptq-int8
- Qwen1.5-32B-w4a16c8
- Qwen2-72B-Instruct-w4a16c8
- qwen1.5-72b-chat-awq
- Qwen2-57B-A14B
- Qwen1.5-110B-Chat-w8a16_gptq
- Qwen1.5-32B-Chat-w4a16c8
- Qwen2-72B-w8a8c8
- Qwen1.5-32B-w8a8c8
- 3.21. starcoder
- 3.22. SUS-Chat
- 3.23. vicuna
- 3.24. WizardCoder
- 3.25. xuanyuan
- 3.26. Yi
- 3.27. Ziya-Coding
- 4. 数据集精度验证
- 5. 高阶特性
- 6. 多模态模型