1. 前言

TopsCompressor 是一个大模型量化压缩工具包,旨在提供便捷python api帮助模型开发人员进行模型量化压缩等任务,主要功能包括:

  • 支持主流weight only量化方法

  • 支持w8a8量化方法

  • 支持Hugging Face models格式量化

  • safetensors格式支持

  • 量化后模型无缝支持vllm-gcu推理

1.1. 版本信息

表 1.1.2 版本信息

日期

版本

新增功能

描述

2024-12-12

v3.3

1.支持gptq int8 gcu/gpu 量化。 2.支持量化过程设置原始模型dtype。 3.修复awq量化读safetensors格式bug。 4.int8 kvcache量化支持safetensors格式保存。

2024-11-04

v3.2 update1

1.新增自定义模型量化。 2.支持w8a8/w4a16/w8a16/int8 kvcache gcu量化。 3.w8a8新增moe模型支持:deepseek,mixtral。 4.int8 kvcache新增模型支持:internlm2,deepseek,qwen2等。 5.修复awq量化精度低问题。

2024-08-16

v3.2

1.支持w8a16 gpu。 2.支持w4a16 gpu(gptq,awq)。 3.支持w8a8 gpu量化。 4.支持int8 kvcache gpu/gcu量化。 5.主流大模型量化支持:llama系列,baichuan系列,glm系列,千问系列等。 6.支持新模型结构量化:deepseekv2,starcoder2,chatglm模型等。 7.支持自定义数据集量化。