1. 简介
TopsRider v3.5.110 版本适用于 S60 系列设备。下述新增/修改特性和问题修复部分是相对于上一次 发布 Topsrider v3.4.107 的主要变更。
2. 功能优化
2.1 新增/修改基本特性
- TopsRider run 包
- 新增 Torch_gcu 2.6/ flash-attn/ SGLang/ vllm_gcu 0.8.0 安装包
- 删除 TGI/Paddle-custom-gcu / vLLM0.7.2 安装包
- 增加了环境检查工具 topsinfo 1.1.6 ,用于检查当前安装的软件栈组件列表,相关的硬件信息,驱动软件,以及指定 Python 环境中的相关模块信息
- Torch-gcu
- 新增支持 Torch_GCU 2.6.0 版本
- Torch_GCU 支持 torch profiler 功能
- vLLM_GCU
- 从 vLLM 0.8.0 改为 vllm_gcu 插件化支持
- 新增支持 Qwen3、Qwen3Moe、 Qwen3-Reranker、 GLM4 、GOT-OCR 、jina-reranker-v2-base-multilingual 系列模型,具体信息见下方模型表格
- 支持模型 DeepSeek-V3 系列,并支持该模型的支持该模型 TP,PP,DP, EP 功能
- 针对模型性能优化(Qwen2.5-vl,Qwen3 等)
- 新增 Rerank 和 Embedding 模型的性能和精度测试脚本
- 不再支持 vLLM0.7.2 版本
- SGLang:
- 首次支持 SGLang 0.4.4 基于 GCU 运行大模型推理
- 支持分布式部署(支持多种并行策略组合)
- 支持基于 page-attention 的高效 KV-Cache 管理
- 支持 Radix cache,Continuous batch,GCU Graph 等高级特性
- 支持基于 triton kernel 的编译加速
- Triton_GCU
- sw pingpong 功能使能
- dte 连续性功能增强
- reduce 性能优化
- op fusion 增强
- 支持 triton 3.2
- TopsPlatform
- 新增多进程 DRS 使用场景的支持,让用户可以将整卡预先规划切片,在容器中使用单个切片,并可支持多进程
- Efsmi 新增 DRS 相关命令,支持对 DRS 实例进行创建、删除等操作
- Runtime 新增 EFRT_STREAM_SYNC_USE_POLLING 环境变量控制 stream sync 采用中断或 polling 的方式,优化 stream sync 性能
- Runtime 新增接口 topsStreamGetSharedMemPeak,以方便用户计算单条 stream 上使用的 shared memory 的峰值
- KMD 新增两个文件节点给用户查询 ctx_cq_ring_size 和 irq_poll_interval 的值,默认值不变
- TopsVisualProfiler 功能增强
- 支持在 timeline 视图插入/删除书签
- 默认折叠 timeline 视图横向导航图
- 切换 timeline 视图时保留选择视图的展开/折叠状态
- 支持在 timeline 视图显示 DTE 带宽柱状图
- TopsProfiler 新增支持–timeunit auto 选项
- TopsProfiler 新增支持–kill 选项,允许指定 profiling 停止时是否终止目标程序
- TopsProfiler 新增支持–command-file 选项,允许使用命令文件来配置 profiling 选项
- Efsmi 新增单个 MC 上 dbe 数量的显示
2.2 新支持模型
2.2.1 LLM
模型名称 | 支持框架 | 数据类型 | 卡数 | |
1 | glm-z1-32b-0414-gptq-int4 | vLLM0.8.0+PyTorch2.6 | w4a16 | 1 |
2 | Qwen3-235B-A22B-w4a16 | vLLM0.8.0+PyTorch2.6 | w4a16 | 4 |
3 | QWen3-30B-A3B | vLLM0.8.0+PyTorch2.6 | BF16 | 2 |
4 | QWen3-32B-INT4 | vvLLM0.8.0+PyTorch2.6 | INT4 | 4 |
5 | QWen3-32B-BF16 | vvLLM0.8.0+PyTorch2.6 | BF16 | 4 |
6 | qwen2.5-coder-32b | vLLM0.8.0+PyTorch2.6 | BF16 | 4 |
7 | DeepSeek-Prover-V2-7B | vLLM0.8.0+PyTorch2.6 | BF16 | 2 |
8 | deepseek-v3 | vLLM0.8.0+PyTorch2.6 | BF16 | 32 |
9 | Deepseek R1 | vLLM0.8.0+PyTorch2.6 | w4a16 | 32 |
10 | Deepseek R1 | vLLM0.8.0+PyTorch2.6 | w4a16 | 32 |
11 | DeepSeek-R1-Distill-Qwen-14B | vLLM0.8.0+PyTorch2.6 | BF16 | 1 |
12 | DeepSeek-R1-Distill-Llama-8B | vLLM0.8.0+PyTorch2.6 | BF16 | 1 |
2.2.2 多模态
模型名称 | 框架 | 数据类型 | 卡数 | |
1 | MiniCPM-o-2_6 | vLLM0.8.0+PyTorch2.6 | BF16 | 1 |
2 | QWen2 VL 72B | vLLM0.8.0+PyTorch2.6 | w8a16 | 4 |
3 | LLaVA-OneVision-72b | vLLM0.8.0+PyTorch2.6 | w16a16 | 4 |
4 | QVQ-72b-preview | vLLM0.8.0+PyTorch2.6 | BF16 | 8 |
5 | deepseek-vl2 | vLLM0.8.0+PyTorch2.6 | BF16/FP16 | 2 |
6 | Qwen2.5-vl-3b | vLLM0.8.0+PyTorch2.6 | BF16 | 1 |
2.2.3 图像生成
模型名称 | 框架 | 数据类型 | 卡数 | |
1 | flux | Diffusers | BF16 | 1 |
2.2.4 视频生成
模型名称 | 框架 | 数据类型 | 卡数 | |
1 | CogVideoX1.5-5B-I2V | Diffusers | BF16 | 1 |
2 | wan2.1 | XDiT | BF16 | 8 |
2.2.5 传统模型
模型名称 | 框架 | 数据类型 | 卡数 | |
1 | fish-speech | Diffusers | FP32/FP16 | 1 |
2 | GOT-OCR | vLLM0.8.0+PyTorch2.6 | w16a16 | 1 |
2.2.6 Embedding 模型
模型名称 | 框架 | 数据类型 | 卡数 | |
1 | gte-Qwen2-7B-instruct | vLLM0.8.0+PyTorch2.6 | FP32/FP16 | 1 |
2 | ina-reranker-v2-base-multilingual | vLLM0.8.0+PyTorch2.6 | BF16 | 1 |
3 API变更信息
相对于 Topsrider v3.4.107 版本 , runtime、算子的 API 变更信息如下,具体 API 内容请参考对 应 API 手册。
- Runtime:增加 8 个 API, 删除 87 个,修改 0 个
- Topsop: 增加 130 的 API, 删除 5 个,修改 4 个
- ECCL:增加 1 个 API, 删除 0 个, 修改 0 个
4.FW信息
FW | 版本号 |
S60 SSM FW | Boot FW 33.6.5,Runtime FW 33.6.5.31 |
AP | 1.1.8 |
SP | 3.2.3 |
VPU | 3.1.6 |
5. 组件信息
Package Name | File |
topsideas | topsideas-3.2.20241115-cp310-cp310-linux_x86_64.whl |
sentence-transformers | sentence_transformers-2.7.0+gcu.3.2.20240805-py3-none-any.whl |
vllm | vllm-0.6.1.post2+torch.2.5.1.gcu.3.2.20250522-cp39-abi3- linux_x86_64.whl |
vllm-gcu | vllm_gcu-0.8.0+3.4.20250704-cp39-abi3-linux_x86_64.whl |
triton-gcu | triton-gcu_0.9.20250624.1-1_amd64.deb |
triton-gcu-py topscompressor | triton_gcu-0.9.20250624.1-py3.10-none-any.whl |
topscompressor-3.5.1+torch.2.6.0-cp310-cp310-linux_x86_64.whl | |
xfuser | xfuser-0.4.1+gcu.3.3.20250630-py3.10-none-any.whl |
onnxruntime_gcu | onnxruntime_gcu-1.9.1+3.1.0-cp38-cp38-linux_x86_64.whl |
tops-extension-2.5 | tops_extension-3.2.20250604+torch.2.5.1-cp310-cp310- linux_x86_64.whl |
onnxruntime_gcu | onnxruntime_gcu-1.9.1+3.1.0-cp310-cp310-linux_x86_64.whl |
tensorflow_2.13 tensorflow_2.13 | tensorflow_gcu-2.13.1+3.4.20250401-cp38-cp38-linux_x86_64.whl |
tensorflow_gcu-2.13.1+3.4.20250401-cp310-cp310-linux_x86_64.whl | |
tensorflow_2.9 | tensorflow_gcu-2.9.0+3.4.20250401-cp38-cp38-linux_x86_64.whl |
tensorflow_2.9 | tensorflow_gcu-2.9.0+3.4.20250401-cp310-cp310-linux_x86_64.whl |
sgl-kernel | sgl_kernel-0.0.5+gcu.3.4.20250612-cp39-abi3-linux_x86_64.whl |
ai_development_toolkit | ai_development_toolkit |
tops-extension | tops_extension-3.2.20250604+torch.2.6.0-cp310-cp310- linux_x86_64.whl |
xformers | xformers-0.0.25+torch.2.5.1.gcu.3.2.20250427-cp310-cp310- linux_x86_64.whl |
xformers-29 | xformers-0.0.29.post2+torch.2.6.0.gcu.3.2.20250605-cp310-cp310- linux_x86_64.whl |
flash-attn | flash_attn-2.6.3+torch.2.6.0.gcu.3.4.20250616-cp310-cp310- linux_x86_64.whl |
topsplatform | TopsPlatform_1.5.0.604-e75daa_deb_amd64.run |
topsfactor | topsfactor_3.5.109-1_amd64.deb |
topsaten | topsaten_3.5.20250711-1_amd64.deb |
tops-sdk | tops-sdk_3.5.109-1_amd64.deb |
tops-inference | tops-inference_3.5.109-1_amd64.deb |
eccl | eccl_3.5.20250711-1_amd64.deb |
eccl-tests | eccl-tests_3.5.20250711-1_amd64.deb |
topsgraph | topsgraph_3.5.0-1_amd64.deb |
topsgraph-py | topsgraph-3.5.0-cp310-cp310-linux_x86_64.whl |
TopsInference | TopsInference-3.5.109-py3.10-none-any.whl |
TopsInference | TopsInference-3.5.109-py3.8-none-any.whl |
torch-gcu-2.5 | torch_gcu-2.5.1+3.5.0.1_x86_64.run |
torch-gcu-2.6 | torch_gcu-2.6.0+3.5.0.3_x86_64.run |
fast-diffusers | fast_diffusers-0.29.2+gcu.3.2.20250709-py3.10-none-any.whl |
fast-diffusers-utils | fast_diffusers_utils-0.29.2+gcu.3.2.20250709-py3.10-none-any.whl |
libtorch | ai_framework/torch_gcu/libtorch_gcu |
5.1 TopsRider run包组件信息
5.2 TopsRider run 包外的组件信息
No. | Package Name | File |
1 | ffmpeg-gcu | ffmpeg-gcu-1.5.0.6-n4.4-1.tar.gz |
2 | TopsVisualProfiler | TopsVisualProfiler_1.5.0.604-e75daa_win64.zip |
3 | Application run | TopsRider_i3x_3.5.110_application.run |
5.3 TopsRider ddeb 包组件信息
- TopsRider_3.5.110_ddeb_amd64.run
- eccl_3.5.20250711-1_amd64-dbgsym.ddeb
- eccl-tests_3.5.20250711-1_amd64-dbgsym.ddeb
- topsaten_3.5.20250711-1_amd64-dbgsym.ddeb
- topscv_1.2.4.1-20250410-1_amd64-dbgsym.ddeb
- topsfactor_3.5.110-1_amd64-dbgsym.ddeb
- tops-inference_3.5.110-1_amd64-dbgsym.ddeb
- TopsPlatform_1.5.0.604-e75daa_ddeb_amd64.run
- tops-sdk_3.5.110-1_amd64-dbgsym.ddeb
- triton-gcu_0.9.20250624.1-1_amd64-dbgsym.ddeb
6. 操作系统和Python支持
6.1 适配说明
- Host 环境:仅Enflame Driver 对此 OS 环境做兼容适配,Docker 运行 Ubuntu
- Docker 环境:软件栈功能已做适配测试,需使用相同OS 的 Host
6.2 操作系统支持列表
操作系统名称 | 架构 | 内核版本 | GCC | GLIBC | 说明 |
Ubuntu 20.04.z(z<=5) | x86 | 5.4 & 5.11 & 5.13 & 5.15 | 9.3 | 2.31 | Host & Docker |
Ubuntu 22.04.z (z<=4) | x86 | 5.15 | 11.2 | 2.35 | Host & Docker |
Ubuntu 22.04.5 | 86 | 6.8 | 12.3 | 2.35 | 仅驱动在 Host 上已适配 |
Kylin v10 | x86 | 4.19.0 | 7.3 | 2.28 | |
UOS 20 Server | x86 | 4.19.0 | 7.3 | 2.28 | |
OpenEular | X86 | 5.10.0 | 10.3.1 | 2.34 | |
龙蜥 8.2 QU2 | X86 | 4.18.0 | 8.3.1 | 2.28 | |
龙蜥 8.6 | X86 | 4.19.90 | 7.3.0 | 2.28 | |
TLinux 4.2 | X86 | 6.6.30 | 12.3.1 | 2.38 |
6.3 Python 支持版本
Python 3.8(只支持 TopsInference 推理框架),Python 3.10
7. 文档更新
7.1 增加文档
- 《torch_GCu2.6 用户使用手册》
- 《torch_GCU2.6 算子支持列表》
- 《vLLm-GCU 用户使用手册》v0.8.0 版本
- 《SGLang 用户使用手册》
- 《TritonGCU 编程指南》
7.2 删除文档
- 《TGI 用户使用手册》
- 《PaddleCustomDevice-GCU3.0 算子支持列表》