8. vllm-gcu部署¶

参考《vLLM-gcu 用户使用手册》安装相关组件。

8.1. 准备模型¶

使用本工具量化好的模型。

8.2. 性能测试¶

python3 -m vllm_utils.benchmark_test --perf --model=quant_model --dtype=float16 --device=** --input-len=** --output-len=** --max-model-len=** --block-size=64 --num-prompts={batch_size} --quantization={w8a16, gptq, awq} --tensor-parallel-size=** --kv-cache-dtype="int8" --quantization-param-path=xxx_int8_kv_cache.json

说明: quantization参数根据量化方式选择，如果int8 kvcache safetensors文件和权重文件在同一目录，vllm推理时需要删除该int8 kvcache safetensors文件，其余文件保持不变。kv-cache-dtype参数根据需求设置，如果使能int8 kvcache设置为int8，quantization-param-path设置为int8 kvcache json文件位置，如果不使能，不需要设置这两个参数。

8.3. 数据集测试¶

python3 -m vllm_utils.evaluate_datasets.run --datasets mmlu_gen --data-dir tinydata/mmlu --vllm-path quant_model --work-dir work_dir --tensor-parallel-size=** --model-kwargs dtype=float16 quantization={w8a16, gptq, awq} kv_cache_dtype="int8" quantization_param_path=xxx_int8_kv_cache.json

说明: quantization参数根据量化方式选择，如果int8 kvcache safetensors文件和权重文件在同一目录，vllm推理时需要删除该int8 kvcache safetensors文件，其余文件保持不变。kv-cache-dtype参数根据需求设置，如果使能int8 kvcache设置为int8，quantization-param-path设置为int8 kvcache json文件位置，如果不使能，不需要设置这两个参数。

9. 数据集精度评估¶

注意: 数据集精度测试可参考vllm进行量化后模型精度测试。