1. 前言¶
TopsCompressor 是一个大模型量化压缩工具包,旨在提供便捷python api帮助模型开发人员进行模型量化压缩等任务,主要功能包括:
支持主流weight only量化方法
支持Hugging Face models格式量化
safetensors格式支持
量化后模型无缝支持vllm-gcu推理
1.1. 版本信息¶
日期 |
版本 |
新增功能 |
描述 |
---|---|---|---|
2024-08-16 |
v3.2 |
1.支持w8a16 gpu/gcu量化。 2.支持w4a16 gpu/gcu量化(gptq,awq)。 3.支持int8 kvcache gpu/gcu量化。 4.主流大模型量化支持。 5.支持新模型结构量化:deepseekv2,starcoder2,chatglm模型等。 6.支持自定义数据集量化。 |
gcu量化正在支持中,建议优先选择gpu进行量化。 |