1. 前言¶
TopsCompressor 是一个大模型量化压缩工具包,旨在提供便捷python api帮助模型开发人员进行模型量化压缩等任务,主要功能包括:
支持主流weight only量化方法
支持w8a8量化方法
支持Hugging Face models格式量化
safetensors格式支持
量化后模型无缝支持vllm-gcu推理
1.1. 版本信息¶
日期 |
版本 |
新增功能 |
描述 |
---|---|---|---|
2024-12-12 |
v3.3 |
1.支持gptq int8 gcu/gpu 量化。 2.支持量化过程设置原始模型dtype。 3.修复awq量化读safetensors格式bug。 4.int8 kvcache量化支持safetensors格式保存。 |
|
2024-11-04 |
v3.2 update1 |
1.新增自定义模型量化。 2.支持w8a8/w4a16/w8a16/int8 kvcache gcu量化。 3.w8a8新增moe模型支持:deepseek,mixtral。 4.int8 kvcache新增模型支持:internlm2,deepseek,qwen2等。 5.修复awq量化精度低问题。 |
|
2024-08-16 |
v3.2 |
1.支持w8a16 gpu。 2.支持w4a16 gpu(gptq,awq)。 3.支持w8a8 gpu量化。 4.支持int8 kvcache gpu/gcu量化。 5.主流大模型量化支持:llama系列,baichuan系列,glm系列,千问系列等。 6.支持新模型结构量化:deepseekv2,starcoder2,chatglm模型等。 7.支持自定义数据集量化。 |