1. 简介

TopsRider v3.2.109 版本适用于 S60 系列设备。下述新增/修改特性和问题修复部分是相对于上一次发布Topsrider v3.1.8 的变更。

2. 功能优化

2.1 新增/修改基本特性

2.1.1 TopsPlatform

TopsRider 3.2.109 版本包含的TopsPlatform 版本为 1.2.0。TopsPlatform_v1.2.0 版本 KMD 提升了底层驱动的稳定性,Runtime 优化launch kernel 和多流下发的性能,提升模型效率。 编译器优化 dte api codesize,减少 icache miss;优化编译器产生的指令效率,提升算子性能。

TopsProfiler、TopsGDB、Efsmi 等工具也做了改进和优化,方便用户调试使用。

2.1.1.1 新增功能
  • TopsGraph mode 支持 factor 算子和 topscc 算子混跑
  • 新增 runtime 接口 topsExecutableGetBinaryPtr()
  • 新增 runtime 接口 topsStreamCreateWithLaunchLimit API
  • 默认使能 L2C/LLC,提升模型性能
  • 新增查询函数,查询 buffer 是 L2 还是 L3,可通过 topsPointerGetAttribute 接口查询,
    topsPointerGetAttributes 接口未支持
  • 新增 FW 热更新
  • 新增 efsmi 接口 efsmi -mcm single/dual -i x,用于配置卡的 hash 模式,该功能有如下
    limitation:
  • 仅支持 Asic,Asic Passthrough 切换 hash mode,SRIOV 虚拟化环境下仅支持读取 hash
    mode
  • 驱动重新安装或机器重启后,mcm 变回默认状态
  • docker 里面切换 mcm,需要 docker 有 privileged 权限
  • 不支持多个 docker 并行切换(即使 docker 内是不同的卡)
  • TopsVisualProfiler 选择视图导出 csv 时支持平铺 list 导出
  • TopsProfiler 支持显示 kernel 隐式参数信息
  • TopsProfiler 支持使能 SIP 的部分 profiling 事件而非全部事件
2.1.1.2 功能变更
  • efsmi reset 移除-F 参数
  • libefdrv.so 和libefdrv_static.a 以及相关软连接文件从 topsruntime package 中移除,头文件不变,一些必要的符号从 libefdrv 中移动到libefrt。如果之前没有直接依赖 libefdrv,但是编译脚本中有类似-lefdrv 这样的链接语句,需要删除,对于已经编译好的,依赖 libefdrv 的动态库或者可执行文件,需要重新编译
  • stream packet 默认使用单线程下发
  • Hwsync 替换 gsync,需要使用 topsplatform 1.2.0.7 重新编译上层应用,否则会出现不兼容问题

2.1.2 Tensorflow_GCU

已对接支持 aten 算子的总数,达到了 100+

2.1.3 Torch_GCU

  • 支持 torch 版本由 2.1 升级至 2.3
  • Torch 2.1 版本改为维护状态
  • 已对接支持 aot 算子的总数,达到了 320 个
  • 支持用户自定义算子接入gcu,提供所需头文件和库符号
  • 支持 runtime Graph 模式(对标 CUDAGraph)
  • compile 模式持续完善:增加 permute 相关优化pass,增加保存 graph 调试功能。
  • 支持lazy init 模式,用户可以在多进程场景使用 torch_gcu
  • 支持基于stream 的setlimit 功能,用户可以按需限定 stream 可用的计算资源
  • op debug 工具持续完善:支持python 调用堆栈打印,支持更多类型参数
  • 依赖的 torch 版本由默认 torch 调整为 torch+cpu 版本,避免引入 nv 软件包依赖
  • 移除 vllm 相关算子对接,torch.gcu.llm_ops 模块不再支持

以上内容,详见《Torch_GCU v2.3 用户使用手册》、《Torch_GCU v2.3 算子支持列表》

2.1.4 TopsAten

新增 opgraph 接口,可用于支持 aot 的 elementwise fusion,包括构图和执行接口。

2.1.5 VLLM

  • 版本升级至 0.4.2
  • 支持了量化 LLM 的推理
  • 支持了下述模型:
    • 多个新增 fp16、bf16 模型
    • 多个量化 LLM 模型,包括w8a16、w4a16、w4a16c8、GPTQ、AWQ
    • 多个多模态模型
  • 支持了 chunked prefill、auto prefix caching、speculative decoding 等性能优化feature
  • 支持了 multi lora 推理
  • 支持了 serving mode 的性能测试
  • 除 eager mode 外,新增支持类cuda graph 功能(runtime graph)

2.1.6 topscompressor

  • 0.2 版本发布
  • 支持 awq 量化
  • 支持gptq 量化
  • 支持w8a16 量化
  • 支持int8 kvcache 量化
  • 支持自定义数据集

2.1.7 diffusers

  • 版本升级至 0.29.2
  • 支持了多个视频生成模型
  • 支持了超过 77token 的输入提示词
  • 支持了 DiT 类模型的推理

2.1.8 xDiT(即 xfuser)

  • 0.2 版本发布
  • 支持图片生成模型的多卡推理

2.1.9 Topscloud

TopsCloud 3.2.18 单独发布,不再包含在TopsRider run 包中

2.1.10 TGI

  • 移除TGI zip 包

2.2 新支持模型

2.2.1 LLM-W16A16

 序号模型名称框架数据类型卡数
1Gemma-7BvLLMFP161
2deepseek-moe-16B-chatvLLMFP161
3deepseek-coder-6.7B-basevLLMFP161
4DeepSeek-V2-Lite-Chat(只支持 eager 模式)vLLMBF161
5GLM-4-9B-chatvLLMBF16, FP161
6GLM-4-9B-basevLLMFP161
7Mixtral-8x22B-v0.1vLLMBF168
8Qwen1.5-4BvLLMBF161
9Qwen1.5-4B-chatvLLMBF161
10Qwen1.5-MoE-A2.7BvLLMBF161
11Qwen2-7BvLLMFP161
12Qwen2-7B-InstructvLLMBF161
13Qwen2-57B-A14B (Qwen2-moe)vLLMBF164
14Qwen2-72B-InstructvLLMFP168
15Llama3.1-8B-InstructvLLMBF161
16Llama-3.1-70B-InstructvLLMBF164
17DBRX-132BvLLMFP168
18codegemma-7BvLLMFP161
19Yi-34B-200kvLLMFP168

2.2.2 LLM-W8A16

 序号模型名称框架数据类型卡数
1Qwen1.5-110B-ChatvLLMW8A168
2Qwen1.5-72BvLLMW8A168
3Qwen1.5-32B-chatvLLMW8A162
4Qwen2-72BvLLMW8A168
5Mixtral-8x22B-v0.1vLLMW8A168
6GLM-4-9B-basevLLMW8A161
7Gemma-7BvLLMW8A161
8YI-34B-chatvLLMW8A162
9moose-34BvLLMW8A162
10sus-chat-34BvLLMW8A161
11Llama2-7BvLLMW8A161
12Llama2-70BvLLMW8A164
13starcoder2 15BvLLMW8A161
14codellama_70b_instructvLLMW8A162

2.2.3 LLM-W4A16

 序号模型名称框架数据类型卡数
1Qwen1.5-32BvLLMW4A161
2Qwen1.5-72B-Chat (只支持 eager 模式)vLLMW4A168
3Qwen2-72B-instructvLLMW4A164
4LLama2-7B-chat-GPTQvLLMW4A161
5Llama-2-13B-chat-GPTQvLLMW4A161
6Llama2-70BvLLMW4A162
7Llama3-70BvLLMW4A162
8Yi-1.5-34BvLLMW4A162

2.2.4 LLM-W4A16C8

 序号模型名称框架数据类型卡数
1Qwen1.5-32BvLLMW4A16C81
2Qwen1.5-32B-ChatvLLMW4A16C81
3Qwen2-72B-instructvLLMW4A16C82
4Llama2-7B-chatvLLMW4A16C81
5Llama2-70BvLLMW4A16C84

2.2.5 多模态

 序号模型名称框架数据类型卡数
1llava1.5-7bvLLMFP161
2GLM-4V-9BvLLMBF161
3Deepseek-vl-7B-chatvLLMBF161
4ClipPyTorch2.3+TopsAtenFP161

2.2.6 图像生成

 序号模型名称框架数据类型卡数
1SDXL+textual_inversionPyTorch2.3+TopsAtenFP161
2stable-diffusion-3-mediumPyTorch2.3+TopsAtenFP161
3SDXL-LightningPyTorch2.3+TopsAtenFP161
4SDXL+DistriFusionPyTorch2.3+TopsAtenFP162 or 4
5SDXL+DeepCachePyTorch2.3+TopsAtenFP161
6SDXL、SD1.5 长输入支持PyTorch2.3+TopsAtenFP161
7SD2.0PyTorch2.3+TopsAtenFP161
8SD1.5+ControlNet_Plus_PlusPyTorch2.3+TopsAtenFP161
9Real EsrganPyTorch2.3+TopsAtenFP161
10PixArt-SigmaPyTorch2.3+TopsAtenFP161
11HunyuanDiTPyTorch2.3+TopsAtenFP161
12HunYuanDiT1.2-diffusersPyTorch2.3+TopsAtenFP161
13xDiT+HunYuanDiT1.2-diffusersPyTorch2.3+TopsAtenFP164

2.2.7 视频生成

 序号模型名称框架数据类型卡数
1ToonCrafterPyTorch2.3+TopsAtenFP161
2SVDPyTorch2.3+TopsAtenFP161
3Open-Sora-Plan 1.1PyTorch2.3+TopsAtenBF161
4Open-Sora 1.2PyTorch2.3+TopsAtenBF161
5HalloPyTorch2.3+TopsAtenFP161
6EasyAnimatePyTorch2.3+TopsAtenBF161
7DynamiCrafterPyTorch2.3+TopsAtenFP161

2.2.8 传统模型

 序号模型名称框架数据类型卡数
1YOLO v9m(aot)PyTorch2.3+TopsAtenFP161
2YOLO v8m(aot)PyTorch2.3+TopsAtenFP161
3YOLO v5m(aot)PyTorch2.3+TopsAtenFP161
4XTTSPyTorch2.3+TopsAtenFP161
5whisper-large-v3PyTorch2.3+TopsAtenFP161
6Swin-TransformerPyTorch2.3+TopsAtenFP161
7speech-transformerPyTorch2.3+TopsAtenFP161
8Qwen-audioPyTorch2.3+TopsAtenFP161
9Mask r-cnnTopsInferenceFP161
10Faster r-cnnTopsInferenceFP161
11ConvNeXtPyTorch2.3+TopsAtenFP161
12conformer*TopsInferenceFP161
13ChatTTSPyTorch2.3+TopsAtenFP161
14bge-reranker-v2-m3PyTorch2.3+TopsAtenFP161
15bge-reranker-basePyTorch2.3+TopsAtenFP161
163d unetPyTorch2.3+TopsAtenFP161
17ViTPyTorch2.3+TopsAtenFP161
18SAMPyTorch2.3+TopsAtenFP161
19dlrm-dcnPyTorch2.3+TopsAtenFP161

3. FW 信息

FW版本号
S60 SSM FWBoot FW 33.6.5,Runtime FW 33.6.5.25
AP1.1.4
SP2.10.1
VPU3.1.4

4. 组件

4.1 TopsRider run 包组件

No.Component TypePackage NamePackage TypeFile
1HostdockerfileFolderdockerfile
2data_center_toolkitFolderdata_center_toolkit
3topsplatformPackageTopsPlatform_1.2.0.301- c9a090_deb_amd64.run
4DrivertopsplatformPackageTopsPlatform_1.2.0.301- c9a090_deb_amd64.run
5ContainertopscompressorPython3.8topscompressor-3.1.20241012-py3.8- none-any.whl
6xformersPython3.10xformers-3.1.20240904-cp310- cp310-linux_x86_64.whl
7tops-extensionPython3.8tops_extension-3.1.20240903-cp38- cp38-linux_x86_64.whl
8tops-extensionPython3.10tops_extension-3.1.20240903-cp310- cp310-linux_x86_64.whl
9sentence-transformersPython3.xsentence_transformers- 2.7.0+gcu.3.2.20240805-py3-none-any.whl
10vllmPython3.8vllm-0.4.2+gcu.3.2.2-cp38-cp38- linux_x86_64.whl
11vllmPython3.10vllm-0.4.2+gcu.3.2.2-cp310-cp310- linux_x86_64.whl
12topscompressorPython3.10topscompressor-3.1.20241012- py3.10-none-any.whl
13fast-diffusers-utilsPython3.10fast_diffusers_utils- 0.29.2+gcu.3.1.20240926-py3.10-none-any.whl
14xfuserPython3.10xfuser-0.2+gcu.3.1.20240913-py3.10- none-any.whl
15topsideasPython3.8topsideas-3.1.20240723-cp38-cp38- linux_x86_64.whl
16topsideasPython3.10topsideas-3.1.20240723-cp310- cp310-linux_x86_64.whl
17onnxruntime_gcuPython3.8onnxruntime_gcu-1.9.1+3.1.0-cp38- cp38-linux_x86_64.whl
18onnxruntime_gcuPython3.10onnxruntime_gcu-1.9.1+3.1.0-cp310- cp310-linux_x86_64.whl
19tensorflow_2.2Python3.8tensorflow_gcu-2.2.0+3.0.20240910- cp38-cp38-linux_x86_64.whl
20xformersPython3.8xformers-3.1.20240904-cp38-cp38- linux_x86_64.whl
21fast-diffusersPython3.10fast_diffusers- 0.29.2+gcu.3.1.20240926-py3.10-none-any.whl
22fast-diffusers-utilsPython3.8fast_diffusers_utils- 0.29.2+gcu.3.1.20240926-py3.8-none-any.whl
23fast-diffusersPython3.8fast_diffusers- 0.29.2+gcu.3.1.20240926-py3.8-
none-any.whl
24torch-gcu-2.1Python3.10torch_gcu-2.1.0+3.1.1.2-cp310- cp310-linux_x86_64.whl
25torch-gcu-2.1Python3.8torch_gcu-2.1.0+3.1.1.2-cp38-cp38- linux_x86_64.whl
26torch-gcu-2.3Python3.10torch_gcu-2.3.0+3.2.0-cp310-cp310- linux_x86_64.whl
27torch-gcu-2.3Python3.8torch_gcu-2.3.0+3.2.0-cp38-cp38- linux_x86_64.whl
28TopsInferencePython3.8TopsInference-3.2.109-py3.8-none- any.whl
29TopsInferencePython3.10TopsInference-3.2.109-py3.10-none- any.whl
30eccl-testsPackageeccl-tests_3.1.20240910- 1_amd64.deb
31ecclPackageeccl_3.1.20240910-1_amd64.deb
32tops-inferencePackagetops-inference_3.2.109-1_amd64.deb
33tops-sdkPackagetops-sdk_3.2.109-1_amd64.deb
34topsatenPackagetopsaten_3.2.20240926-1_amd64.deb
35topsfactorPackagetopsfactor_3.2.109-1_amd64.deb
36topsplatformPackageTopsPlatform_1.2.0.301- c9a090_deb_amd64.run
37ai_development_toolkitFolderai_development_toolkit

4.2 TopsRider run 包外的组件

No.Package NameFile
1ffmpeg-gcuffmpeg-gcu_1.2.0.5-20240913-n4.4-1_amd64.deb
2ffmpeg-gcu-1.2.0.5-20240913-n4.4-1.x86_64.rpm
3TopsVisualProfilerTopsVisualProfiler_1.2.0.300-776fcf_win64.zip

5. 文档更新

5.1 增加文档

《Topscompressor 用户使用手册》

《xDiT-GCU 用户使用手册》

《TopsGDB 用户使用手册》

《OpenGPG 签名验证指南》

5.2 删除文档

TopsCloud 3.2.18 独立发布文档,以下文档不放入TopsRider 文档中

《TopsCloud 用户使用手册》

《K8S Plugin 用户使用手册》

《GCUShare 用户使用手册》

《Container Toolkit 用户使用手册》

《GCU Feature Discovery 用户使用手册》

《Node Feature Discovery 用户使用手册》

《GCU-Exporter 用户使用手册》

《GCU_Monitor_Examples 用户使用手册》

《GCU-Operator 用户使用手册》

《K8s-Installer 用户使用手册》

《GO-Eflib 用户使用手册》

6. 操作系统和 Python 支持

6.1 适配说明

  • Host 环境:仅 Enflame Driver 对此 OS 环境做兼容适配,Docker 运行 Ubuntu
  • Docker 环境:软件栈功能已做适配测试,需使用相同OS 的 Host

6.2 操作系统支持列表

操作系统名称架构内核版本GCCGLIBC说明
Ubuntu 20.04.z(z<=5)x865.4 & 5.11 & 5.13 & 5.159.32.31Host & Docker
Ubuntu 22.04.z (z<=1)x865.1511.22.35Host & Docker
Kylin v10x864.19.07.32.28仅驱动在 Host 上已适配
UOS 20 Serverx864.19.07.32.28
OpenEularX865.10.010.3.12.34
龙蜥 8.2 QU2X864.18.08.3.12.28
龙蜥 8.6X864.19.907.3.02.28

6.3 Python 支持版本

Python 3.8,Python 3.10(支持大模型推理模型)

Tags: