1. 前言¶
1.1. 声明¶
本文档提供的信息属于上海燧原科技有限公司和/或其子公司(以下统称“燧原科技”)所有,且燧原科技保留不经通知随时对本文档信息或对任何产品和服务做出修改的权利。本文档所含信息和本文档所引用燧原科技其他信息均“按原样”提供。燧原科技不担保信息、文本、图案、链接或本文档内所含其他项目的准确性或完整性。燧原科技不对本文档所述产品的可销售性、所有权、不侵犯知识产权、准确性、完整性、稳定性或特定用途适用性做任何暗示担保、保证。燧原科技可不经通知随时对本文档或本文档所述产品做出更改,但不承诺更新本文档。
在任何情况下,燧原科技不对因使用或无法使用本文档而导致的任何损害(包括但不限于利润损失、业务中断和信息损失等损害)承担责任。燧原科技不承担因应用或使用本文档所述任何产品或服务而产生的任何责任。
本文档所列的规格参数、性能数据和等级需使用特定芯片或计算机系统或组件来测量。经该等测试,本文档所示结果反映了燧原科技产品的大概性能。系统配置及软硬件版本、环境变量等的任何不同会影响实际性能,产品实际效果与文档描述存在差异的,均属正常现象。燧原科技不担保测试每种产品的所有参数。客户自行承担对产品适合并适用于客户计划的应用以及对应用程序进行必要测试的责任。客户产品设计的脆弱性会影响燧原科技产品的质量和可靠性并导致超出本文档范围的额外或不同的情况和/或要求。
燧原科技和燧原科技的标志是上海燧原科技有限公司申请和/或注册的商标。本文档并未明示或暗示地授予客户任何专利、版权、商标、集成电路布图设计、商业秘密或任何其他燧原科技知识产权的权利或许可。
本文档为版权所有并受全世界版权法律和条约条款的保护。未经燧原科技的事先书面许可,任何人不可以任何方式复制、修改、出版、上传、发布、传输或分发本文档。为免疑义,除了允许客户按照本文档要求使用文档相关信息外,燧原科技不授予其他任何明示或暗示的权利或许可。
燧原科技对本文档享有最终解释权。
1.2. 版本记录¶
文档版本 |
文档日期 |
文档说明 |
---|---|---|
V1.0 |
2021年12月8日 |
正式发布 |
V1.1 |
2022年3月25日 |
添加“智能功耗管理”特点 更新软件架构图 |
V1.2 |
2022年4月1日 |
添加“PN”注意事项 修改部分术语描述 添加散热器风阻图 |
V1.3 |
2022年5月6日 |
删减规格参数信息 |
V1.4 |
2022年5月16日 |
更新软件架构图,增加词汇表中文说明 |
V1.5 |
2022年5月27日 |
在规格参数中添加核心频率 |
V1.6 |
2023年3月23日 |
增加时钟要求和热插拔说明,更新云燧T20加速卡外观结构图 |
V1.7 |
2023年8月9日 |
在规格参数中添加尺寸及重量数据 |
V1.8 |
2023年10月24日 |
在规格参数中去掉毛重,增加中英文产品名称 |
1.3. 词汇表¶
术语 |
描述 |
---|---|
GCU |
General Compute Unit, 燧原科技通用计算单元 |
GCU-CARE |
General Compute Unit - Compute All Round Engine, 燧原科技计算引擎 |
GCU-LARE |
General Compute Unit - Link All Round Engine, 燧原科技互联引擎 |
PCIe |
Peripheral Component Interconnect Express, 快捷外围部件互联标准 |
DIDT |
Delta Current Intensity/Delta Time, 电流变化率 |
APC |
Adaptive Power Control, 自适应功率控制 |
DVFS |
Dynamic Voltage and Frequency Scaling, 动态电压频率调解 |
AMC |
Accelerator Management Controller, 加速卡管理控制单元 |
BMC |
Baseboard Management Controller, 主板管理控制单元 |
SMBUS |
System Management Bus, 系统管理总线 |
EDSL |
Embedded Domain Specific Language,嵌入式特定领域语言 |
IaaS |
Infrastructure as a Service, 基础设施即服务 |
ECCL |
Enflame Collective Communications Library, 燧原科技多卡集合通讯库 |
RDMA |
Remote Direct Memory Access, 远程直接数据存取 |
PN |
Part Number, 部件号 |
TDP |
Thermal Design Power, 散热设计功耗 |
HBM |
High Bandwidth Memory, 高带宽存储器 |
TopsRider |
燧原科技驭算软件栈 |
TopsVirt |
燧原科技GCU虚拟化软件 |
TopsRuntime |
燧原科技运行时库 |
TopsEngine |
燧原科技编程模型和编译器的总称 |
TopsCC |
燧原科技编程模型和编译器 |
TopsFactor |
燧原科技下一代编程模型和编译器 |
TopsOperator |
燧原科技基础算子库 |
TopsGraph |
燧原科技图编译器 |
TopsKit |
燧原科技开发者工具包的总称 |
TopsVisualProfiler |
燧原科技可视化性能分析工具 |
TopsProf |
燧原科技命令行性能分析工具 |
TopsPTI |
燧原科技高级自定义分析接口 |
Tops-X |
燧原科技应用开发扩展库的总称 |
TopsDNN |
燧原科技神经网络静态算子库 |
TopsInference |
燧原科技推理加速引擎 |
TopsModel |
燧原科技模型仓库 |
TopsDL |
燧原科技AI应用集成开发平台 |
TopsInstaller |
燧原科技软件栈安装程序 |
2. 简介¶
云燧T20(CloudBlazer T20)是燧原科技基于邃思2.0芯片打造的面向数据中心的第二代人工智能训练加速卡,结合全新升级的驭算软件平台,具有模型覆盖面广、性能强、软件生态开放、灵活扩展等产品特点,可支持多种人工智能训练场景,提供业界领先的人工智能算力集群方案。
云燧T20的核心邃思2.0芯片是国内领先且具有自主知识产权的人工智能训练芯片,在上一代1.0芯片的基础上全面优化了计算、存储与数据引擎,提供强劲的全精度人工智能算力、先进的存储方案、灵活的可扩展性。
云燧T20训练加速卡全面提升了针对人工智能多场景多模型的广泛覆盖和泛化支持能力,结合泛互联网、传统行业和新基建等业务领域的智能化升级需求提供支持,作为算力基础设施和开发算法模型的生产力工具,提供对视觉检测跟踪分类、语音识别与合成、自然语言处理、强化学习等多种场景的广泛支持。
2.1. 主要特征¶
性能¶
计算引擎
支持FP32、FP16、BF16、INT8等多种数据精度,提供领先的单精度浮点性能
高可编程性,支持矢量、张量等多种计算类型,支持超越函数计算加速
存储引擎
三层存储结构设计,基于深度学习训练计算负载进行了深度效率优化
国内首张支持HBM2E存储方案的训练加速卡,提供业界领先的存储容量和存储带宽
数据引擎
面向张量AI数据流计算加速的数据引擎,支持切分/逆切分、维度变换、拼接、降采样、镜像、常量填充等
支持融合型张量操作
支持数据多地址广播
硬件多重循环指令,降低同步开销
扩展¶
高效支持算力扩展
提供独立的高速互联接口,单卡支持6路GCU-LARE,共提供300GB/s的双向传输带宽
支持基于PCIe接口、GCU-LARE接口的节点内P2P互联
支持基于网卡、GCU-LARE接口的节点间互联,可实现千卡以上级别规模的分布式集群方案
系统¶
智能功耗管理
支持基于APC方案的芯片及板卡级功耗实时管理
包含针对功耗检测、DIDT管控、均值/峰值电流检测、温度检测等多重保护机制
提供实时、准确、稳定的功耗与电流控制
提供基于DVFS的动态细粒度调频调压智能系统,根据实时负载提供灵活的性能加速
驱动加载后,可根据GCU负载判断自动进入低功耗模式(runtime-sleep),大幅降低板卡待机功耗
系统监测管理
支持对温度、电压、功耗等运行指标的实时监测与管理
支持BMC通过SMBUS端口进行带外管理,管控设备状态信息
提供独立的板级加速卡管理控制(AMC)模块,与片上系统互为双活设计
软件栈¶
驭算TopsRider是燧原科技自主知识产权的计算及编程平台,通过软硬件协同的架构设计,充分释放T20的性能。全新的驭算2.0软件栈,通过软硬件结合提供极致的性能和优化的编程环境,进一步降低了用户的迁移成本和学习成本。驭算TopsRider适配主流框架,提供工具链支持开发与调优,不断提升用户的使用体验。
全新编程模型,开放编程接口
可以操作标量和多维数组的通用编程接口库
以C++ EDSL的方式提供了C++编程接口,帮助用户更快地熟悉并上手
定义了一套执行模型和存储模型,用于简化数据切分和数据流操作
自适应图优化策略及算子泛化
针对深度神经网络的统一模型进行处理,进行算子融合等高层图优化,并提供动态性支持
全新profiling工具
profiling工具准确定位系统的软、硬件性能瓶颈,提升性能分析的效率,通过针对性的性能优化,以最小的代价和成本实现业务场景的极致性能
系统级设备虚拟化
虚拟化实现计算、存储、网络的解耦,为IaaS层资源的灵活编排提供了基础
资源可灵活切分,使算力资源的分配和用户业务算力的需求达到匹配,实现最大化利用率从而降低成本
高加速比分布式训练能力
云燧集群通信库ECCL 2.0添加了RDMA peerdirect特性的支持,以达到节约RDMA网卡成本和RDMA多租户隔离的双重目的
在拓扑算法上,ECCL 2.0对2D-Mesh pro进行了升级以更好地支持资源弹性分配
3. 规格¶
3.1. 规格参数¶
规格 |
规格(细分项) |
参数 |
---|---|---|
产品名称 Product Name |
中文 |
云燧T20 |
英文 |
CloudBlazer T20 |
|
产品型号 Product Model |
T20 |
|
产品部件号 Product PN 1 |
EFB-0021001-00 |
|
PCI Device IDs |
Vendor ID |
0x1e36 |
Device ID |
0x0021 |
|
Sub-Vendor ID |
0x1e36 |
|
Sub-System ID |
0x0021 |
|
核心频率 |
1.3GHz |
|
计算精度支持 |
FP32,BF16,FP16,INT8 |
|
GCU-CARE核心数量 |
24 |
|
内存规格 |
容量 |
32GB |
带宽 |
1.6TB/s |
|
接口规格 |
PCIe |
PCIe 4.0x16 |
GCU-LARE |
300 GB/s |
|
功耗 |
TDP |
300 W |
散热设计 |
被动散热 |
|
尺寸 |
268.6mm * 111.15mm * 38.1mm |
|
重量 2 |
1.1Kg |
|
形态 |
全高全长,双槽位 |
3.2. 外观¶
4. 电气特性¶
4.1. 电源接口¶
云燧T20系列加速卡采用12V 8pin供电接口,最大限度与主流AI服务器电源输出配置相兼容,电源接口Pin脚定义图如下:
电源接口具体供电及电气特性如下:
环境参数 |
功率最大值 |
电流最大值 |
滑动平均 |
---|---|---|---|
PCIe插槽 (12V ± 8%) |
66W |
5.5A |
1s |
8-Pin电源连接器 |
240W |
20A |
1s |
PCIe插槽 (3.3V ± 9%) |
10W |
3A |
1s |
总功耗 |
≤300W |
1s |
云燧T20加速卡在5ms、1ms、200us下的峰值电流如下:
电流持续时间 |
8Pin 12V接口电流(A) |
PCIe 12V接口电流(A) |
---|---|---|
5ms |
35 |
5.5 |
1ms |
35 |
5.5 |
200us |
35 |
5.5 |
4.2. 加速卡工作环境¶
环境参数 |
工作条件 |
---|---|
工作环境温度 |
0 °C ~ 45 °C |
贮存运输温度 |
-40 °C ~ 75 °C |
工作环境湿度 |
5% ~ 90% 相对湿度 |
贮存运输湿度 |
5% ~ 95% 相对湿度 |
4.3. 时钟要求¶
云燧T20遵从标准PCIe标卡协议(PCI Express Card Electromechanical Specification Revision 4.0),整卡只需要提供标准PCIe4.0的时钟,信号质量满足PCIe规范。
4.4. 热插拔¶
云燧T20不支持通知式热插拔和暴力热插拔。
4.5. 散热要求¶
参数 |
HBM2E |
邃思(DTU) |
单位 |
---|---|---|---|
加速卡功耗 |
≤300 |
W |
|
熔断保护温度 3 |
110 |
105 |
°C |
警告温度 4 |
105 |
100 |
°C |
最大正常工作温度 5 |
100 |
95 |
°C |
最佳性能温度范围 |
0-85 |
0-93 |
°C |
- 3
当HBM2E结温大于等于表中温度、或者邃思(DTU)结温大于等于表中温度时,会触发芯片熔断保护机制。
- 4
当HBM2E结温大于等于表中温度、或者邃思(DTU)结温大于等于表中温度时,芯片的工作频率会降到最低,建议风扇转速调至100%。
- 5
当HBM2E结温大于等于表中温度、或者邃思(DTU)结温大于等于表中温度时,将触发芯片降频。
云燧T20系列加速卡被动散热支持双向风流,风可以从左往右吹,也可以从右往左吹。
风阻曲线如下图所示:
风量和散热器入风口温度:
散热器入风口温度(°C) |
燧原科技验证 |
|
---|---|---|
30 |
15 |
Y |
35 |
17 |
Y |
40 |
20 |
Y |
45 |
25 |
Y |
任何温度 8 |
15 |
Y |