1. 前言

TopsCompressor 是一个大模型量化压缩工具包,旨在提供便捷python api帮助模型开发人员进行模型量化压缩等任务,主要功能包括:

  • 支持主流weight only量化方法

  • 支持Hugging Face models格式量化

  • safetensors格式支持

  • 量化后模型无缝支持vllm-gcu推理

1.1. 版本信息

表 1.1.3 版本信息

日期

版本

新增功能

描述

2024-08-16

v3.2

1.支持w8a16 gpu/gcu量化。 2.支持w4a16 gpu/gcu量化(gptq,awq)。 3.支持int8 kvcache gpu/gcu量化。 4.主流大模型量化支持。 5.支持新模型结构量化:deepseekv2,starcoder2,chatglm模型等。 6.支持自定义数据集量化。

gcu量化正在支持中,建议优先选择gpu进行量化。