1. 简介

TopsRider v3.5.110 版本适用于 S60 系列设备。下述新增/修改特性和问题修复部分是相对于上一次 发布 Topsrider v3.4.107 的主要变更。

2. 功能优化

2.1 新增/修改基本特性

  • TopsRider run 包
    • 新增 Torch_gcu 2.6/ flash-attn/ SGLang/ vllm_gcu 0.8.0 安装包
    • 删除 TGI/Paddle-custom-gcu / vLLM0.7.2 安装包
    • 增加了环境检查工具 topsinfo 1.1.6 ,用于检查当前安装的软件栈组件列表,相关的硬件信息,驱动软件,以及指定 Python 环境中的相关模块信息
  • Torch-gcu
    • 新增支持 Torch_GCU 2.6.0 版本
    • Torch_GCU 支持 torch profiler 功能
  • vLLM_GCU
    • 从 vLLM 0.8.0 改为 vllm_gcu 插件化支持
    • 新增支持 Qwen3、Qwen3Moe、 Qwen3-Reranker、 GLM4 、GOT-OCR 、jina-reranker-v2-base-multilingual 系列模型,具体信息见下方模型表格
    • 支持模型 DeepSeek-V3 系列,并支持该模型的支持该模型 TP,PP,DP, EP 功能
    • 针对模型性能优化(Qwen2.5-vl,Qwen3 等)
    • 新增 Rerank 和 Embedding 模型的性能和精度测试脚本
    • 不再支持 vLLM0.7.2 版本
  • SGLang:
    • 首次支持 SGLang 0.4.4 基于 GCU 运行大模型推理
    • 支持分布式部署(支持多种并行策略组合)
    • 支持基于 page-attention 的高效 KV-Cache 管理
    • 支持 Radix cache,Continuous batch,GCU Graph 等高级特性
    • 支持基于 triton kernel 的编译加速
  • Triton_GCU
    • sw pingpong 功能使能
    • dte 连续性功能增强
    • reduce 性能优化
    • op fusion 增强
    • 支持 triton 3.2
  • TopsPlatform
    • 新增多进程 DRS 使用场景的支持,让用户可以将整卡预先规划切片,在容器中使用单个切片,并可支持多进程
    • Efsmi 新增 DRS 相关命令,支持对 DRS 实例进行创建、删除等操作
    • Runtime 新增 EFRT_STREAM_SYNC_USE_POLLING 环境变量控制 stream sync 采用中断或 polling 的方式,优化 stream sync 性能
    • Runtime 新增接口 topsStreamGetSharedMemPeak,以方便用户计算单条 stream 上使用的 shared memory 的峰值
    • KMD 新增两个文件节点给用户查询 ctx_cq_ring_size 和 irq_poll_interval 的值,默认值不变
    • TopsVisualProfiler 功能增强
      • 支持在 timeline 视图插入/删除书签
      • 默认折叠 timeline 视图横向导航图
      • 切换 timeline 视图时保留选择视图的展开/折叠状态
      • 支持在 timeline 视图显示 DTE 带宽柱状图
    • TopsProfiler 新增支持–timeunit auto 选项
    • TopsProfiler 新增支持–kill 选项,允许指定 profiling 停止时是否终止目标程序
    • TopsProfiler 新增支持–command-file 选项,允许使用命令文件来配置 profiling 选项
    • Efsmi 新增单个 MC 上 dbe 数量的显示

2.2 新支持模型

2.2.1 LLM

模型名称支持框架数据类型卡数
1glm-z1-32b-0414-gptq-int4vLLM0.8.0+PyTorch2.6w4a161
2Qwen3-235B-A22B-w4a16vLLM0.8.0+PyTorch2.6w4a164
3QWen3-30B-A3BvLLM0.8.0+PyTorch2.6BF162
4QWen3-32B-INT4vvLLM0.8.0+PyTorch2.6INT44
5QWen3-32B-BF16vvLLM0.8.0+PyTorch2.6BF164
6qwen2.5-coder-32bvLLM0.8.0+PyTorch2.6BF164
7DeepSeek-Prover-V2-7BvLLM0.8.0+PyTorch2.6BF162
8deepseek-v3vLLM0.8.0+PyTorch2.6BF1632
9Deepseek R1vLLM0.8.0+PyTorch2.6w4a1632
10Deepseek R1vLLM0.8.0+PyTorch2.6w4a1632
11DeepSeek-R1-Distill-Qwen-14BvLLM0.8.0+PyTorch2.6BF161
12DeepSeek-R1-Distill-Llama-8BvLLM0.8.0+PyTorch2.6BF161

2.2.2 多模态

模型名称框架数据类型卡数
1MiniCPM-o-2_6vLLM0.8.0+PyTorch2.6BF161
2QWen2 VL 72BvLLM0.8.0+PyTorch2.6w8a164
3LLaVA-OneVision-72bvLLM0.8.0+PyTorch2.6w16a164
4QVQ-72b-previewvLLM0.8.0+PyTorch2.6BF168
5deepseek-vl2vLLM0.8.0+PyTorch2.6BF16/FP162
6Qwen2.5-vl-3bvLLM0.8.0+PyTorch2.6BF161

2.2.3 图像生成

模型名称框架数据类型卡数
1fluxDiffusersBF161

2.2.4 视频生成

模型名称框架数据类型卡数
1CogVideoX1.5-5B-I2VDiffusersBF161
2wan2.1XDiTBF168

2.2.5 传统模型

模型名称框架数据类型卡数
1fish-speechDiffusersFP32/FP161
2GOT-OCRvLLM0.8.0+PyTorch2.6w16a161

2.2.6 Embedding 模型

模型名称框架数据类型卡数
1gte-Qwen2-7B-instructvLLM0.8.0+PyTorch2.6FP32/FP161
2ina-reranker-v2-base-multilingualvLLM0.8.0+PyTorch2.6BF161

3 API变更信息

相对于 Topsrider v3.4.107 版本 , runtime、算子的 API 变更信息如下,具体 API 内容请参考对 应 API 手册。

  • Runtime:增加 8 个 API, 删除 87 个,修改 0 个
  • Topsop: 增加 130 的 API, 删除 5 个,修改 4 个
  • ECCL:增加 1 个 API, 删除 0 个, 修改 0 个

4.FW信息

FW版本号
S60 SSM FWBoot FW 33.6.5,Runtime FW 33.6.5.31
AP1.1.8
SP3.2.3
VPU3.1.6

5. 组件信息

Package NameFile
topsideastopsideas-3.2.20241115-cp310-cp310-linux_x86_64.whl
sentence-transformerssentence_transformers-2.7.0+gcu.3.2.20240805-py3-none-any.whl
vllmvllm-0.6.1.post2+torch.2.5.1.gcu.3.2.20250522-cp39-abi3- linux_x86_64.whl
vllm-gcuvllm_gcu-0.8.0+3.4.20250704-cp39-abi3-linux_x86_64.whl
triton-gcutriton-gcu_0.9.20250624.1-1_amd64.deb
triton-gcu-py

topscompressor
triton_gcu-0.9.20250624.1-py3.10-none-any.whl
topscompressor-3.5.1+torch.2.6.0-cp310-cp310-linux_x86_64.whl
xfuserxfuser-0.4.1+gcu.3.3.20250630-py3.10-none-any.whl
onnxruntime_gcuonnxruntime_gcu-1.9.1+3.1.0-cp38-cp38-linux_x86_64.whl
tops-extension-2.5tops_extension-3.2.20250604+torch.2.5.1-cp310-cp310- linux_x86_64.whl
onnxruntime_gcuonnxruntime_gcu-1.9.1+3.1.0-cp310-cp310-linux_x86_64.whl
tensorflow_2.13

tensorflow_2.13
tensorflow_gcu-2.13.1+3.4.20250401-cp38-cp38-linux_x86_64.whl
tensorflow_gcu-2.13.1+3.4.20250401-cp310-cp310-linux_x86_64.whl
tensorflow_2.9tensorflow_gcu-2.9.0+3.4.20250401-cp38-cp38-linux_x86_64.whl
tensorflow_2.9tensorflow_gcu-2.9.0+3.4.20250401-cp310-cp310-linux_x86_64.whl
sgl-kernelsgl_kernel-0.0.5+gcu.3.4.20250612-cp39-abi3-linux_x86_64.whl
ai_development_toolkitai_development_toolkit
tops-extensiontops_extension-3.2.20250604+torch.2.6.0-cp310-cp310- linux_x86_64.whl
xformersxformers-0.0.25+torch.2.5.1.gcu.3.2.20250427-cp310-cp310- linux_x86_64.whl
xformers-29xformers-0.0.29.post2+torch.2.6.0.gcu.3.2.20250605-cp310-cp310- linux_x86_64.whl
flash-attnflash_attn-2.6.3+torch.2.6.0.gcu.3.4.20250616-cp310-cp310- linux_x86_64.whl
topsplatformTopsPlatform_1.5.0.604-e75daa_deb_amd64.run
topsfactortopsfactor_3.5.109-1_amd64.deb
topsatentopsaten_3.5.20250711-1_amd64.deb
tops-sdktops-sdk_3.5.109-1_amd64.deb
tops-inferencetops-inference_3.5.109-1_amd64.deb
eccleccl_3.5.20250711-1_amd64.deb
eccl-testseccl-tests_3.5.20250711-1_amd64.deb
topsgraphtopsgraph_3.5.0-1_amd64.deb
topsgraph-pytopsgraph-3.5.0-cp310-cp310-linux_x86_64.whl
TopsInferenceTopsInference-3.5.109-py3.10-none-any.whl
TopsInferenceTopsInference-3.5.109-py3.8-none-any.whl
torch-gcu-2.5torch_gcu-2.5.1+3.5.0.1_x86_64.run
torch-gcu-2.6torch_gcu-2.6.0+3.5.0.3_x86_64.run
fast-diffusersfast_diffusers-0.29.2+gcu.3.2.20250709-py3.10-none-any.whl
fast-diffusers-utilsfast_diffusers_utils-0.29.2+gcu.3.2.20250709-py3.10-none-any.whl
libtorchai_framework/torch_gcu/libtorch_gcu

5.1 TopsRider run包组件信息

5.2 TopsRider run 包外的组件信息

No.Package NameFile
1ffmpeg-gcuffmpeg-gcu-1.5.0.6-n4.4-1.tar.gz
2TopsVisualProfilerTopsVisualProfiler_1.5.0.604-e75daa_win64.zip
3Application runTopsRider_i3x_3.5.110_application.run

5.3 TopsRider ddeb 包组件信息

  • TopsRider_3.5.110_ddeb_amd64.run
    • eccl_3.5.20250711-1_amd64-dbgsym.ddeb
    • eccl-tests_3.5.20250711-1_amd64-dbgsym.ddeb
    • topsaten_3.5.20250711-1_amd64-dbgsym.ddeb
    • topscv_1.2.4.1-20250410-1_amd64-dbgsym.ddeb
    • topsfactor_3.5.110-1_amd64-dbgsym.ddeb
    • tops-inference_3.5.110-1_amd64-dbgsym.ddeb
    • TopsPlatform_1.5.0.604-e75daa_ddeb_amd64.run
    • tops-sdk_3.5.110-1_amd64-dbgsym.ddeb
    • triton-gcu_0.9.20250624.1-1_amd64-dbgsym.ddeb

6. 操作系统和Python支持

6.1 适配说明

  • Host 环境:仅Enflame Driver 对此 OS 环境做兼容适配,Docker 运行 Ubuntu
  • Docker 环境:软件栈功能已做适配测试,需使用相同OS 的 Host

6.2 操作系统支持列表

操作系统名称架构内核版本GCCGLIBC说明
Ubuntu 20.04.z(z<=5)x865.4 & 5.11 & 5.13 & 5.159.32.31Host & Docker
Ubuntu 22.04.z (z<=4)x865.1511.22.35Host & Docker
Ubuntu 22.04.5866.812.32.35仅驱动在 Host 上已适配
Kylin v10x864.19.07.32.28
UOS 20 Serverx864.19.07.32.28
OpenEularX865.10.010.3.12.34
龙蜥 8.2 QU2X864.18.08.3.12.28
龙蜥 8.6X864.19.907.3.02.28
TLinux 4.2X866.6.3012.3.12.38

6.3 Python 支持版本

Python 3.8(只支持 TopsInference 推理框架),Python 3.10

7. 文档更新

7.1 增加文档

  • 《torch_GCu2.6 用户使用手册》
  • 《torch_GCU2.6 算子支持列表》
  • 《vLLm-GCU 用户使用手册》v0.8.0 版本
  • 《SGLang 用户使用手册》
  • 《TritonGCU 编程指南》

7.2 删除文档

  • 《TGI 用户使用手册》
  • 《PaddleCustomDevice-GCU3.0  算子支持列表》

Categories:

Tags: