TopsRider v 3.5.110 发布说明 – Enflame Customer Support

on 13 8 月, 2025

1. 简介

TopsRider v3.5.110 版本适用于 S60 系列设备。下述新增/修改特性和问题修复部分是相对于上一次发布 Topsrider v3.4.107 的主要变更。

2. 功能优化

2.1 新增/修改基本特性

TopsRider run 包
- 新增 Torch_gcu 2.6/ flash-attn/ SGLang/ vllm_gcu 0.8.0 安装包
- 删除 TGI/Paddle-custom-gcu / vLLM0.7.2 安装包
- 增加了环境检查工具 topsinfo 1.1.6 ，用于检查当前安装的软件栈组件列表，相关的硬件信息，驱动软件，以及指定 Python 环境中的相关模块信息
Torch-gcu
- 新增支持 Torch_GCU 2.6.0 版本
- Torch_GCU 支持 torch profiler 功能
vLLM_GCU
- 从 vLLM 0.8.0 改为 vllm_gcu 插件化支持
- 新增支持 Qwen3、Qwen3Moe、 Qwen3-Reranker、 GLM4 、GOT-OCR 、jina-reranker-v2-base-multilingual 系列模型，具体信息见下方模型表格
- 支持模型 DeepSeek-V3 系列，并支持该模型的支持该模型 TP,PP,DP, EP 功能
- 针对模型性能优化(Qwen2.5-vl,Qwen3 等）
- 新增 Rerank 和 Embedding 模型的性能和精度测试脚本
- 不再支持 vLLM0.7.2 版本
SGLang：
- 首次支持 SGLang 0.4.4 基于 GCU 运行大模型推理
- 支持分布式部署（支持多种并行策略组合）
- 支持基于 page-attention 的高效 KV-Cache 管理
- 支持 Radix cache，Continuous batch，GCU Graph 等高级特性
- 支持基于 triton kernel 的编译加速
Triton_GCU
- sw pingpong 功能使能
- dte 连续性功能增强
- reduce 性能优化
- op fusion 增强
- 支持 triton 3.2
TopsPlatform
- 新增多进程 DRS 使用场景的支持，让用户可以将整卡预先规划切片，在容器中使用单个切片，并可支持多进程
- Efsmi 新增 DRS 相关命令，支持对 DRS 实例进行创建、删除等操作
- Runtime 新增 EFRT_STREAM_SYNC_USE_POLLING 环境变量控制 stream sync 采用中断或 polling 的方式，优化 stream sync 性能
- Runtime 新增接口 topsStreamGetSharedMemPeak，以方便用户计算单条 stream 上使用的 shared memory 的峰值
- KMD 新增两个文件节点给用户查询 ctx_cq_ring_size 和 irq_poll_interval 的值，默认值不变
- TopsVisualProfiler 功能增强
  - 支持在 timeline 视图插入/删除书签
  - 默认折叠 timeline 视图横向导航图
  - 切换 timeline 视图时保留选择视图的展开/折叠状态
  - 支持在 timeline 视图显示 DTE 带宽柱状图
- TopsProfiler 新增支持–timeunit auto 选项
- TopsProfiler 新增支持–kill 选项，允许指定 profiling 停止时是否终止目标程序
- TopsProfiler 新增支持–command-file 选项，允许使用命令文件来配置 profiling 选项
- Efsmi 新增单个 MC 上 dbe 数量的显示

2.2 新支持模型

2.2.1 LLM

	模型名称	支持框架	数据类型	卡数
1	glm-z1-32b-0414-gptq-int4	vLLM0.8.0+PyTorch2.6	w4a16	1
2	Qwen3-235B-A22B-w4a16	vLLM0.8.0+PyTorch2.6	w4a16	4
3	QWen3-30B-A3B	vLLM0.8.0+PyTorch2.6	BF16	2
4	QWen3-32B-INT4	vvLLM0.8.0+PyTorch2.6	INT4	4
5	QWen3-32B-BF16	vvLLM0.8.0+PyTorch2.6	BF16	4
6	qwen2.5-coder-32b	vLLM0.8.0+PyTorch2.6	BF16	4
7	DeepSeek-Prover-V2-7B	vLLM0.8.0+PyTorch2.6	BF16	2
8	deepseek-v3	vLLM0.8.0+PyTorch2.6	BF16	32
9	Deepseek R1	vLLM0.8.0+PyTorch2.6	w4a16	32
10	Deepseek R1	vLLM0.8.0+PyTorch2.6	w4a16	32
11	DeepSeek-R1-Distill-Qwen-14B	vLLM0.8.0+PyTorch2.6	BF16	1
12	DeepSeek-R1-Distill-Llama-8B	vLLM0.8.0+PyTorch2.6	BF16	1

2.2.2 多模态

	模型名称	框架	数据类型	卡数
1	MiniCPM-o-2_6	vLLM0.8.0+PyTorch2.6	BF16	1
2	QWen2 VL 72B	vLLM0.8.0+PyTorch2.6	w8a16	4
3	LLaVA-OneVision-72b	vLLM0.8.0+PyTorch2.6	w16a16	4
4	QVQ-72b-preview	vLLM0.8.0+PyTorch2.6	BF16	8
5	deepseek-vl2	vLLM0.8.0+PyTorch2.6	BF16/FP16	2
6	Qwen2.5-vl-3b	vLLM0.8.0+PyTorch2.6	BF16	1

2.2.3 图像生成

	模型名称	框架	数据类型	卡数
1	flux	Diffusers	BF16	1

2.2.4 视频生成

	模型名称	框架	数据类型	卡数
1	CogVideoX1.5-5B-I2V	Diffusers	BF16	1
2	wan2.1	XDiT	BF16	8

2.2.5 传统模型

	模型名称	框架	数据类型	卡数
1	fish-speech	Diffusers	FP32/FP16	1
2	GOT-OCR	vLLM0.8.0+PyTorch2.6	w16a16	1

2.2.6 Embedding 模型

	模型名称	框架	数据类型	卡数
1	gte-Qwen2-7B-instruct	vLLM0.8.0+PyTorch2.6	FP32/FP16	1
2	ina-reranker-v2-base-multilingual	vLLM0.8.0+PyTorch2.6	BF16	1

3 API变更信息

相对于 Topsrider v3.4.107 版本 , runtime、算子的 API 变更信息如下，具体 API 内容请参考对应 API 手册。

Runtime：增加 8 个 API, 删除 87 个，修改 0 个
Topsop: 增加 130 的 API, 删除 5 个，修改 4 个
ECCL：增加 1 个 API, 删除 0 个，修改 0 个

4.FW信息

FW	版本号
S60 SSM FW	Boot FW 33.6.5，Runtime FW 33.6.5.31
AP	1.1.8
SP	3.2.3
VPU	3.1.6

5. 组件信息

Package Name	File
topsideas	topsideas-3.2.20241115-cp310-cp310-linux_x86_64.whl
sentence-transformers	sentence_transformers-2.7.0+gcu.3.2.20240805-py3-none-any.whl
vllm	vllm-0.6.1.post2+torch.2.5.1.gcu.3.2.20250522-cp39-abi3- linux_x86_64.whl
vllm-gcu	vllm_gcu-0.8.0+3.4.20250704-cp39-abi3-linux_x86_64.whl
triton-gcu	triton-gcu_0.9.20250624.1-1_amd64.deb
triton-gcu-py topscompressor	triton_gcu-0.9.20250624.1-py3.10-none-any.whl
triton-gcu-py topscompressor	topscompressor-3.5.1+torch.2.6.0-cp310-cp310-linux_x86_64.whl
xfuser	xfuser-0.4.1+gcu.3.3.20250630-py3.10-none-any.whl
onnxruntime_gcu	onnxruntime_gcu-1.9.1+3.1.0-cp38-cp38-linux_x86_64.whl
tops-extension-2.5	tops_extension-3.2.20250604+torch.2.5.1-cp310-cp310- linux_x86_64.whl
onnxruntime_gcu	onnxruntime_gcu-1.9.1+3.1.0-cp310-cp310-linux_x86_64.whl
tensorflow_2.13 tensorflow_2.13	tensorflow_gcu-2.13.1+3.4.20250401-cp38-cp38-linux_x86_64.whl
tensorflow_2.13 tensorflow_2.13	tensorflow_gcu-2.13.1+3.4.20250401-cp310-cp310-linux_x86_64.whl
tensorflow_2.9	tensorflow_gcu-2.9.0+3.4.20250401-cp38-cp38-linux_x86_64.whl
tensorflow_2.9	tensorflow_gcu-2.9.0+3.4.20250401-cp310-cp310-linux_x86_64.whl
sgl-kernel	sgl_kernel-0.0.5+gcu.3.4.20250612-cp39-abi3-linux_x86_64.whl
ai_development_toolkit	ai_development_toolkit
tops-extension	tops_extension-3.2.20250604+torch.2.6.0-cp310-cp310- linux_x86_64.whl
xformers	xformers-0.0.25+torch.2.5.1.gcu.3.2.20250427-cp310-cp310- linux_x86_64.whl
xformers-29	xformers-0.0.29.post2+torch.2.6.0.gcu.3.2.20250605-cp310-cp310- linux_x86_64.whl
flash-attn	flash_attn-2.6.3+torch.2.6.0.gcu.3.4.20250616-cp310-cp310- linux_x86_64.whl
topsplatform	TopsPlatform_1.5.0.604-e75daa_deb_amd64.run
topsfactor	topsfactor_3.5.109-1_amd64.deb
topsaten	topsaten_3.5.20250711-1_amd64.deb
tops-sdk	tops-sdk_3.5.109-1_amd64.deb
tops-inference	tops-inference_3.5.109-1_amd64.deb
eccl	eccl_3.5.20250711-1_amd64.deb
eccl-tests	eccl-tests_3.5.20250711-1_amd64.deb
topsgraph	topsgraph_3.5.0-1_amd64.deb
topsgraph-py	topsgraph-3.5.0-cp310-cp310-linux_x86_64.whl
TopsInference	TopsInference-3.5.109-py3.10-none-any.whl
TopsInference	TopsInference-3.5.109-py3.8-none-any.whl
torch-gcu-2.5	torch_gcu-2.5.1+3.5.0.1_x86_64.run
torch-gcu-2.6	torch_gcu-2.6.0+3.5.0.3_x86_64.run
fast-diffusers	fast_diffusers-0.29.2+gcu.3.2.20250709-py3.10-none-any.whl
fast-diffusers-utils	fast_diffusers_utils-0.29.2+gcu.3.2.20250709-py3.10-none-any.whl
libtorch	ai_framework/torch_gcu/libtorch_gcu

5.1 TopsRider run包组件信息

5.2 TopsRider run 包外的组件信息

No.	Package Name	File
1	ffmpeg-gcu	ffmpeg-gcu-1.5.0.6-n4.4-1.tar.gz
2	TopsVisualProfiler	TopsVisualProfiler_1.5.0.604-e75daa_win64.zip
3	Application run	TopsRider_i3x_3.5.110_application.run

5.3 TopsRider ddeb 包组件信息

TopsRider_3.5.110_ddeb_amd64.run
- eccl_3.5.20250711-1_amd64-dbgsym.ddeb
- eccl-tests_3.5.20250711-1_amd64-dbgsym.ddeb
- topsaten_3.5.20250711-1_amd64-dbgsym.ddeb
- topscv_1.2.4.1-20250410-1_amd64-dbgsym.ddeb
- topsfactor_3.5.110-1_amd64-dbgsym.ddeb
- tops-inference_3.5.110-1_amd64-dbgsym.ddeb
- TopsPlatform_1.5.0.604-e75daa_ddeb_amd64.run
- tops-sdk_3.5.110-1_amd64-dbgsym.ddeb
- triton-gcu_0.9.20250624.1-1_amd64-dbgsym.ddeb

6. 操作系统和Python支持

6.1 适配说明

Host 环境：仅Enflame Driver 对此 OS 环境做兼容适配，Docker 运行 Ubuntu
Docker 环境：软件栈功能已做适配测试，需使用相同OS 的 Host

6.2 操作系统支持列表

操作系统名称	架构	内核版本	GCC	GLIBC	说明
Ubuntu 20.04.z(z<=5)	x86	5.4 & 5.11 & 5.13 & 5.15	9.3	2.31	Host & Docker
Ubuntu 22.04.z (z<=4)	x86	5.15	11.2	2.35	Host & Docker
Ubuntu 22.04.5	86	6.8	12.3	2.35	仅驱动在 Host 上已适配
Kylin v10	x86	4.19.0	7.3	2.28
UOS 20 Server	x86	4.19.0	7.3	2.28
OpenEular	X86	5.10.0	10.3.1	2.34
龙蜥 8.2 QU2	X86	4.18.0	8.3.1	2.28
龙蜥 8.6	X86	4.19.90	7.3.0	2.28
TLinux 4.2	X86	6.6.30	12.3.1	2.38

6.3 Python 支持版本

Python 3.8（只支持 TopsInference 推理框架），Python 3.10

7. 文档更新

7.1 增加文档

《torch_GCu2.6 用户使用手册》
《torch_GCU2.6 算子支持列表》
《vLLm-GCU 用户使用手册》v0.8.0 版本
《SGLang 用户使用手册》
《TritonGCU 编程指南》

7.2 删除文档

《TGI 用户使用手册》
《PaddleCustomDevice-GCU3.0 算子支持列表》

Categories:

资讯

Tags:

No Tag