1. 简介
TopsRider v3.1 发布说明,TopsRider v3.1.8 版本适用于 S60 系列设备。下述新增/修改特性和问题修复部分是相对于上一次公版发布 TopsRider v3.0.10 的变更。
2. 功能优化
2.1 新增/修改特性
2.1.1 基础特性
1、 支持 S60 系列设备
2、 新增 TGI 组件支持
3、 移除 2 代产品支持
4、 移除 TopsGDB
2.1.2 驱动
1、 S60 系列产品虚拟化加载
2、 低功耗模式支持
3、 多媒体 Video 进程强杀
4、 EFSMI 优化(显示虚拟化工作模式/显示 GCU 拓扑关系等功能)
2.1.3 TopsCloud
1、 新增 k8s-device-plugin_2.0.0.beta1, enflame-container-toolkit_2.0.0.beta1, node-exporter 支持
2、 kubeone 升级为 k8s-installer,支持 k8s>=1.24 镜像构建
2.1.4 BigModel
1、 新增 deepspeed + deepspeed-mii + S60 系列支持
2.1.5 ECCL
1、 新增 API: ecclCommAbort/ecclCommGetAsyncError/ecclGetLastError/ecclGetVersion
2、 支持机内共享内存的传输通道,适应 VM 场景(非 proxy 方案)
3、 基于 proxy 支持 RDMA 的传输通道
4、 基于 proxy 支持 TCP 的传输通道
5、 通过环境变量 ECCL_IB_HCA 支持 RDMA 端口选择
6、 支持 average 的 reduce op type
7、 通过环境变量支持用户选择和关闭传输通道
2.1.6 Topsprofiler
1、 支持 show timeline by stream
2、 支持 highlight dte partical write
2.2 新支持模型
2.2.1 LLM 大模型
模型名称 | 框架 | 数据类型 | 卡数 |
Mixtral 8x7B 32k | PyTorch+vLLM | fp16 | 4 |
Mistral-7B-v0.1 | PyTorch+vLLM | fp16 | 1 |
Qwen1.0-1.8B | PyTorch+vLLM | bf16 | 1 |
Qwen1.0-7B | PyTorch+vLLM | bf16 | 1 |
Qwen1.0-14B | PyTorch+vLLM | bf16 | 1 |
Qwen1.0-72B | PyTorch+vLLM | bf16 | 4 |
Qwen1.5-14B-chat | PyTorch+vLLM | fp16 | 1 |
Qwen1.5-32B | PyTorch+vLLM | fp16 | 2 |
Qwen1.5-72B-chat | PyTorch+vLLM | fp16 | 4 |
Qwen-14B-chat | PyTorch+vLLM | fp16 | 1 |
internLM2-7B | PyTorch+vLLM | fp16 | 1 |
internLM2-20B | PyTorch+vLLM | fp16 | 2 |
internLM-7B | PyTorch+vLLM | fp16 | 1 |
deepseek-llm-67B | PyTorch+vLLM | fp16 | 4 |
vicuna-v1.3-33B | PyTorch+vLLM | fp16 | 2 |
vicuna-v1.5-13B-16k | PyTorch+vLLM | fp16 | 1 |
vicuna-v1.5-13B | PyTorch+vLLM | fp16 | 1 |
XuanYuan-70B | PyTorch+vLLM | fp16 | 4 |
XuanYuan2-70B | PyTorch+vLLM | fp16 | 4 |
XuanYuan-6B | PyTorch+vLLM | fp16 | 1 |
XuanYuan-13B | PyTorch+vLLM | fp16 | 2 |
Aquila2-34B | PyTorch+vLLM | fp16 | 2 |
AquilaChat2-34B-16K | PyTorch+vLLM | fp16 | 4 |
llama-65B | PyTorch+vLLM | fp16 | 4 |
llama3-8B | PyTorch+vLLM | fp16 | 1 |
llama3-70B | PyTorch+vLLM | fp16 | 4 |
chinese-llama2 | PyTorch+vLLM | fp16 | 1 |
Yi-34B | PyTorch+vLLM | fp16 | 2 |
Yi-6B | PyTorch+vLLM | fp16 | 1 |
bloomz-7B1 | PyTorch+vLLM | fp16 | 1 |
OPT-13B | PyTorch+vLLM | fp16 | 1 |
GPT-J-6B | PyTorch+vLLM | fp16 | 1 |
orion-14b-base | PyTorch+vLLM | fp16 | 1 |
wizardcoder-15B | PyTorch+vLLM | fp16 | 1 |
WizardCoder-33B | PyTorch+vLLM | fp16 | 2 |
ziya-coding-34B | PyTorch+vLLM | fp16 | 2 |
starcoder2-15B | PyTorch+vLLM | fp16 | 1 |
starcoder2-7B | PyTorch+vLLM | fp16 | 1 |
starcodebase | PyTorch+vLLM | fp16 | 1 |
codellama-34B/instruct/python | PyTorch+vLLM | fp16 | 2 |
codellama-13B | PyTorch+vLLM | fp16 | 1 |
codellama-70B/instruct/python | PyTorch+vLLM | fp16 | 4 |
Yi-1.5-34B | PyTorch+vLLM | fp16 | 2 |
Yi-1.5-6B | PyTorch+vLLM | fp16 | 1 |
baichuan2-7B | TGI | fp16 | 1 |
baichuan2-13B | TGI | fp16 | 1 |
chatGLM3-6B-32K | TGI | fp16 | 1 |
chatGLM3-6B-8k | TGI | fp16 | 1 |
llama2-70B | TGI | fp16 | 4 |
2.2.2 AIGC w8a16 量化模型
模型名称 | 框架 | 数据类型 | 卡数 |
LLama2-13B | vLLM | w8a16 | 1 |
LLama2-7B | vLLM | w8a16 | 1 |
LLama2-70B | vLLM | w8a16 | 2 |
LLama3 8B | vLLM | w8a16 | 1 |
LLama3 70B | vLLM | w8a16 | 2 |
QWen1.0-14B | vLLM | w8a16 | 1 |
QWen1.0-72B | vLLM | w8a16 | 2 |
Qwen1.5-14B-chat | vLLM | w8a16 | 1 |
ChatGLM3-6B-32k | vLLM | w8a16 | 1 |
ChatGLM3-6B-8k | vLLM | w8a16 | 1 |
chatGLM2 6B-8k | vLLM | w8a16 | 1 |
chatGLM2 6B-32k | vLLM | w8a16 | 1 |
Baichuan2-13B | vLLM | w8a16 | 1 |
Baichuan2-7B | vLLM | w8a16 | 1 |
Mixtral-8x7B | vLLM | w8a16 | 1 |
InternLM-7B | vLLM | w8a16 | 1 |
ziya-coder-34B | vLLM | w8a16 | 1 |
Bloomz 176B | vLLM | w8a16 | 8 |
2.2.3 AIGC 图像生成
模型名称 | 框架 | 数据类型 | 卡数 |
sd1.5 img2img | PyTorch 2.1 + Aten | fp16 | 1 |
sd1.5_controlnet 推理:canny、mlsd 模式 | PyTorch 2.1 + Aten | fp16 | 1 |
sd1.5_controlnet 推理:openpose、scribble 模式 | PyTorch 2.1 + Aten | fp16 | 1 |
sd1.5_controlnet 推理:lineart、lineart_anime 模式 | PyTorch 2.1 + Aten | fp16 | 1 |
sd1.5_controlnet 推理:depth、normalbae 模式 | PyTorch 2.1 + Aten | fp16 | 1 |
sd1.5_controlnet 推理:inpaint、softedge 模式 | PyTorch 2.1 + Aten | fp16 | 1 |
sd1.5_controlnet 推理:Shuffle、Seg 模式 | PyTorch 2.1 + Aten | fp16 | 1 |
sd1.5_controlnet 推理:Tile,instructpix2pix 模式 | PyTorch 2.1 + Aten | fp16 | 1 |
sd1.5 Hires fix | PyTorch 2.1 + Aten | fp16 | 1 |
sdv1.5 text2image | PyTorch 2.1 + Aten | fp16 | 1 |
sdxl img2img 45 分辨率 | PyTorch 2.1 + Aten | fp16 | 1 |
sdxl-base 新增采样器4 个 | PyTorch 2.1 + Aten | fp16 | 1 |
sdxl-base inpainting,mask 修复 | PyTorch 2.1 + Aten | fp16 | 1 |
sdxl refiner txt2img 45分辨率 | PyTorch 2.1 + Aten | fp16 | 1 |
sdxl 上的 lora、 mulLora, 动态 refit | PyTorch 2.1 + Aten | fp16 | 1 |
sdxl controlnetopenpose、canny | PyTorch 2.1 + Aten | fp16 | 1 |
sdxl controlnet hed | PyTorch 2.1 + Aten | fp16 | 1 |
sdxl + LCM LoRA | PyTorch 2.1 + Aten | fp16 | 1 |
sdxl-turbo | PyTorch 2.1 + Aten | fp16 | 1 |
sd2.1 | PyTorch 2.1 + Aten | fp16 | 1 |
InstantID | PyTorch 2.1 + Aten | fp16 | 1 |
Playground | PyTorch 2.1 + Aten | fp16 | 1 |
DiT | PyTorch 2.1 + Aten | fp16 | 1 |
IP-Adapter-FaceID | PyTorch 2.1 + Aten | fp16 | 1 |
BLIP v1 | PyTorch 2.1 + Aten | fp16 | 1 |
deepdanbooru | PyTorch 2.1 + Aten | fp16 | 1 |
2.2.4 AIGC 视频生成
模型名称 | 框架 | 数据类型 | 卡数 |
ViT | PyTorch 2.1 + Aten | fp16 | 1 |
AnimateDiff | PyTorch 2.1 + Aten | fp16 | 1 |
Magic-Animate | PyTorch 2.1 + Aten | fp16 | 1 |
2.2.5 AIGC 多模态
模型名称 | 框架 | 数据类型 | 卡数 |
llava-1.5-7b | PyTorch 2.1 + Aten | fp16 | 1 |
Cogvlm | PyTorch 2.1 + Aten | fp16 | 1 |
Qwen-VL | PyTorch 2.1 + Aten | fp16 | 1 |
2.2.6 传统模型
模型名称 | 框架 | 数据类型 | 卡数 |
bert-vits | PyTorch 2.1 + Aten | fp16 | 1 |
bge-large-zh-v1.5 | Pytorch+Sentence-Transformers | fp16 | 1 |
bge-large-zh | Pytorch+Sentence-Transformers | fp16 | 1 |
m3e-base | Pytorch+Sentence-Transformers | fp16 | 1 |
gte-large-zh | Pytorch+Sentence-Transformers | fp16 | 1 |
bge-m3 | Pytorch+Sentence-Transformers | fp16 | 1 |
yolov8 | TopsInference | fp16 | 1 |
yolov9 | TopsInference | fp16 | 1 |
dlrm-dcn | PyTorch 2.1 + Aten | fp16 | 1 |
3. FW信息
FW | 版本号 |
S60 SSM FW | Boot FW 33.6.4,Runtime FW 33.6.5.0 |
AP | 1.1.1 |
SP | 2.7.10 |
VPU | 3.1.1 |
4. 问题修复
- S60 推理模型 sdxl_text2image 2048x2048_bs1 oom
- ssd_resnet34_1200x1200_wo_nms-pt-op13-int8-N.onnx 测试真实样本mismatch
5. 文档更新
5.1 增加文档
《torch_gcu2.1 算子支持列表》
《tensorflow_gcu用户使用手册》
《tensorflow_gcu 算子支持列表》
《TopsGraph 用户使用手册》
《多模态模型用户手册》
《torch 模型用户手册(推理)》
《TGI 用户使用手册》
《TopsCodec API Reference》
《TopsCodec 用户使用手册》
5.2 更名文档
《kubeone用户使用手册》更名为《k8s-installer用户使用手册》
5.3 删除文档
《大模型运行示例用户使用手册》
《stable_diffusion_gcu用户手册》
《loadgen用户使用手册》
《onnx 算子支持列表》
《TopsDistInfer用户使用手册》
《horovod_gcu用户使用手册》
《TopsGraph API参考 Python版本》
《PyTorch1.10 用户使用手册》
《模型推理精度验证手册》
6. 使用限制
- RHEL 9.2 不支持虚拟化功能
- 不支持 ARM 平台
7. 操作系统和 Python 支持
7.1 适配说明
- Host 环境:仅 Enflame Driver 对此 OS 环境做兼容适配,Docker 运行 Ubuntu
- Docker 环境:软件栈功能已做适配测试,需使用相同 OS 的 Host
7.2 操作系统支持列表
操作系统名称 | 架构 | 内核版本 | GCC | GLIBC | 说明 |
Ubuntu20.04.z(z<=5) | x86 | 5.4 & 5.11 & 5.13 & 5.15 | 9.3 | 2.31 | Host & Docker |
Ubuntu 22.04.z(z<=1) | x86 | 5.15 | 11.2 | 2.35 | Host & Docker |
Kylin v10 | x86 | 4.19.0 | 7.3 | 2.28 | 仅驱动在 Host 上已适配 |
UOS 20 Server | x86 | 4.19.0 | 7.3 | 2.28 | |
OpenEular | X86 | 5.10.0 | 10.3.1 | 2.34 | |
龙蜥 8.2 QU2 | X86 | 4.18.0 | 8.3.1 | 2.28 | |
龙蜥 8.6 | X86 | 4.19.90 | 7.3.0 | 2.28 |
7.3 Python 支持版本
Python 3.8,Python 3.10(部分推理模型支持)