8. vllm-gcu部署

参考《vLLM-gcu 用户使用手册》安装相关组件。

8.1. 准备模型

使用本工具量化好的模型。

8.2. 性能测试

python3 -m vllm_utils.benchmark_test --perf --model=quant_model --dtype=float16 --device=** --input-len=** --output-len=** --max-model-len=** --block-size=64 --num-prompts={batch_size} --quantization={w8a16, gptq, awq} --tensor-parallel-size=** --kv-cache-dtype="int8" --quantization-param-path=xxx_int8_kv_cache.json

说明: quantization参数根据量化方式选择,如果int8 kvcache safetensors文件和权重文件在同一目录,vllm推理时需要删除该int8 kvcache safetensors文件,其余文件保持不变。kv-cache-dtype参数根据需求设置,如果使能int8 kvcache设置为int8,quantization-param-path设置为int8 kvcache json文件位置,如果不使能,不需要设置这两个参数。

8.3. 数据集测试

python3 -m vllm_utils.evaluate_datasets.run --datasets mmlu_gen --data-dir tinydata/mmlu --vllm-path quant_model --work-dir work_dir --tensor-parallel-size=** --model-kwargs dtype=float16 quantization={w8a16, gptq, awq} kv_cache_dtype="int8" quantization_param_path=xxx_int8_kv_cache.json

说明: quantization参数根据量化方式选择,如果int8 kvcache safetensors文件和权重文件在同一目录,vllm推理时需要删除该int8 kvcache safetensors文件,其余文件保持不变。kv-cache-dtype参数根据需求设置,如果使能int8 kvcache设置为int8,quantization-param-path设置为int8 kvcache json文件位置,如果不使能,不需要设置这两个参数。

9. 数据集精度评估

注意: 数据集精度测试可参考vllm进行量化后模型精度测试。