4.5. 量化

功能介绍

vLLM-gcu中,支持如下量化算法:

  • GPTQ

  • AWQ

  • INT8 (W8A16)

开发中:

  • INT8 (W8A8)

  • INT8 KVCache

注:

  • 对于4bit per group量化方法(GPTQ和AWQ),支持group size是64或64的整数倍。

  • 对于GPTQ量化方法,当前暂不支持g_idx是乱序情况。

  • 对于原生vllm支持的squeezellm,gptq_marlin,fp8等方法gcu暂不支持。

量化过程

可以参考《TopsCompressor用户使用手册》进行模型量化及导出。

使用方法

以vllm_utils.benchmark_test为例:

python3 -m vllm_utils.benchmark_test \
 --model=[path of quantized model] \
 --demo=te \
 --dtype=float16 \
 --quantization=[quantization method] \
 --output-len=256

注:

  • model参数指定量化模型checkpoint本地地址;

  • quantization参数为对应量化方法,可以如下字段:gptqawqw8a16