1. 前言¶
1.1. 声明¶
本文档提供的信息属于上海燧原科技有限公司和/或其子公司(以下统称“燧原科技”)所有,且燧原科技保留不经通知随时对本文档信息或对任何产品和服务做出修改的权利。本文档所含信息和本文档所引用燧原科技其他信息均“按原样”提供。燧原科技不担保信息、文本、图案、链接或本文档内所含其他项目的准确性或完整性。燧原科技不对本文档所述产品的可销售性、所有权、不侵犯知识产权、准确性、完整性、稳定性或特定用途适用性做任何暗示担保、保证。燧原科技可不经通知随时对本文档或本文档所述产品做出更改,但不承诺更新本文档。
在任何情况下,燧原科技不对因使用或无法使用本文档而导致的任何损害(包括但不限于利润损失、业务中断和信息损失等损害)承担责任。燧原科技不承担因应用或使用本文档所述任何产品或服务而产生的任何责任。
本文档所列的规格参数、性能数据和等级需使用特定芯片或计算机系统或组件来测量。经该等测试,本文档所示结果反映了燧原科技产品的大概性能。系统配置及软硬件版本、环境变量等的任何不同会影响实际性能,产品实际效果与文档描述存在差异的,均属正常现象。燧原科技不担保测试每种产品的所有参数。客户自行承担对产品适合并适用于客户计划的应用以及对应用程序进行必要测试的责任。客户产品设计的脆弱性会影响燧原科技产品的质量和可靠性并导致超出本文档范围的额外或不同的情况和/或要求。
燧原科技和燧原科技的标志是上海燧原科技有限公司申请和/或注册的商标。本文档并未明示或暗示地授予客户任何专利、版权、商标、集成电路布图设计、商业秘密或任何其他燧原科技知识产权的权利或许可。
本文档为版权所有并受全世界版权法律和条约条款的保护。未经燧原科技的事先书面许可,任何人不可以任何方式复制、修改、出版、上传、发布、传输或分发本文档。为免疑义,除了允许客户按照本文档要求使用文档相关信息外,燧原科技不授予其他任何明示或暗示的权利或许可。
燧原科技对本文档享有最终解释权。
1.2. 版本历史¶
版本 |
日期 |
描述 |
---|---|---|
1.0 |
2022年10月10日 |
初始版本 |
1.1 |
2022年11月25日 |
1.产品功耗由400W变更为300W |
2.删除风冷产品形态 |
||
3.增加液冷的散热要求 |
||
1.2 |
2023年03月15日 |
1.修订电源接口描述和 Mezzanine 接口描述 |
1.3 |
2023年07月04日 |
1.增加风冷产品形态 |
2.更新液冷散热需求表 |
||
3.更新最小风量表 |
||
1.4 |
2023年10月24日 |
在规格参数中增加中英文产品名称 |
1.3. 词汇表¶
术语 |
定义 |
---|---|
OCP |
Open Compute Project, 开放计算项目 |
OAM |
OCP Accelerator Module, 开放加速模组 |
OAI |
Open Accelerator Infrastructure开放加速器基础设施 |
BDF |
Bus Device Function PCIe总线功能标识符 |
RDMA |
Remote Direct Memory Access远程直接数据存储 |
GCU-CARE |
General Compute Unit – Compute All Round Engine燧原科技计算引擎 |
GCU-LARE |
General Compute Unit - Link All Round Engine燧原科技互联引擎 |
APC |
Adaptive Power Control 自适应功耗控制 |
DVFS |
Dynamic Voltage Frequency Scaling 动态电压频率控制 |
EDC |
Electrical Design Current 电气设计电流 |
TDC |
Thermal Design Current 热设计电流 |
CDU |
Cooling Distribution Unit 制冷分配单元 |
2. 简介¶
云燧T21(CloudBlazer T21)是基于OCP(开放计算项目)OAM(开放加速模组)标准设计、兼容OCP OAI标准(开放加速器基础设施)的人工智能训练加速模组。
云燧T21符合OAM设计规范,可广泛兼容业内主流云端AI基础设施,满足AI训练的算力需求,尤其对BERT、GPT等超大模型训练具有较好的加速效果。
云燧T21支持业内主流框架,结合燧原科技驭算TopsRider平台做深度优化,通过SDK、定制化接口、自定义算子等多种方式开放芯片能力,携手客户及合作伙伴一起共建产业生态。
云燧T21训练加速模型全面提升了针对人工智能多场景多模型的广泛覆盖和泛化支持能力,结合泛互联网、传统行业和新基建等业务领域的智能化升级需求提供支持,作为算力基础设施和开发算法模型的生产力工具,提供对视觉检测跟踪分类、语音识别与合成、自然语言处理、强化学习等多种场景的广泛支持。
2.1. 主要特征¶
性能¶
计算引擎
支持FP32、FP16、BF16、INT8等多种数据精度,提供领先的单精度浮点性能
高可编程性,支持矢量、张量等多种计算类型,支持超越函数计算加速
存储引擎
三层存储结构设计,基于深度学习训练计算负载进行了深度效率优化
国内首个支持HBM2E存储方案的训练加速模组,提供业界领先的存储容量和存储带宽
数据引擎
面向张量AI数据流计算加速的数据引擎,支持切分/逆切分、维度变换、拼接、降采样、镜像、常量填充等
支持融合型张量操作
支持数据多地址广播
硬件多重循环指令,降低同步开销
扩展¶
高效支持算力扩展
提供独立的高速互联接口,单卡支持6路GCU-LARE,共提供300GB/s的双向传输带宽
支持基于PCIe接口、GCU-LARE接口的节点内P2P互联
支持基于网卡的节点间互联,可实现千卡以上级别规模的分布式集群方案
系统¶
智能功耗管理
支持基于APC方案的芯片及板卡级功耗实时管理
包含针对功耗检测、DIDT管控、均值/峰值电流检测、温度检测等多重保护机制
提供实时、准确、稳定的功耗与电流控制
提供基于DVFS的动态细粒度调频调压智能系统,根据实时负载提供灵活的性能加速
系统监测管理
支持对温度、电压、功耗等运行指标的实时监测与管理
支持BMC通过SMBUS接口进行带外管理,管控设备状态信息
软件栈¶
驭算TopsRider是燧原科技自主知识产权的计算及编程平台,通过软硬件协同的架构设计,充分释放T21的性能。全新的驭算2.0软件栈,通过软硬件结合提供极致的性能和优化的编程环境,进一步降低了用户的迁移成本和学习成本。驭算TopsRider适配主流框架,提供工具链支持开发与调优,不断提升用户的使用体验。
全新编程模型,开放编程接口
可以操作标量和多维数组的通用编程接口库
以C++EDSL的方式提供了C++编程接口,帮助用户更快地熟悉并上手
定义了一套执行模型和存储模型,用于简化数据切分和数据流操作
自适应图优化策略及算子泛化
针对深度神经网络的统一模型进行处理,进行算子融合等高层图优化,并提供动态性支持
全新profiling工具
profiling工具准确定位系统的软、硬件性能瓶颈,提升性能分析的效率,通过针对性的性能优化,以最小的代价和成本实现业务场景的极致性能
系统级设备虚拟化
虚拟化实现计算、存储、网络的解耦,为IaaS层资源的灵活编排提供了基础
资源可灵活切分,使算力资源的分配和用户业务算力的需求达到匹配,实现最大化利用率从而降低成本
高加速比分布式训练能力
云燧集群通信库ECCL 2.0添加了RDMA peer direct特性的支持,以达到节约RDMA网卡成本和RDMA多租户隔离的双重目的
在拓扑算法上,ECCL 2.0对2D-Mes pro 进行了升级以更好地支持资源弹性分配
3. 规格¶
3.1. 规格参数¶
规格 |
特征项 |
参数 |
---|---|---|
产品名称Product Name |
中文 |
云燧T21 |
英文 |
CloudBlazer T21 |
|
产品型号Product Model |
T21 |
|
产品部件号Product PN |
液冷 OAM 模组 |
EFB-0068000-00 |
风冷 OAM 模组 |
EFB-0068001-00 |
|
PCI Device IDs |
Vendor ID |
0x1e36 |
Device ID |
0x0023 |
|
Sub-Vendor ID |
0x1e36 |
|
Sub-System ID |
0x0023 |
|
计算精度支持 |
FP32 FP16/BF16 INT32/INT16/INT8 |
|
GCU-CARE核心数量 |
24 |
|
内存规格 |
容量 |
32GB |
带宽 |
1.6TB/s |
|
接口规格 |
PCIe |
PCIe 4.0 x16 |
GCU-LARE |
300GB/s |
|
功耗 |
最大功耗 |
300W |
散热设计 |
被动散热 |
|
重量 |
液冷 OAM 模组 |
0.71kg |
风冷 OAM 模组 |
1.89kg |
3.2. 产品外观¶
液冷 OAM 模组¶
风冷 OAM 模组¶
4. 电气特性¶
4.1. 电源接口¶
云燧系列T21人工智能训练OAM模组采用Mezzanine连接器接口供电,供电电源符合OAM规范,分别为P54V、P3V3(云燧T21默认不支持12V供电输入),电源接口具体电气特性如下:
电源输入 |
类型 |
电压范围 |
EDC |
Max TDC |
滑动平均 |
---|---|---|---|---|---|
P54V1 |
Input |
48V~59.5V |
11.85A |
6.1A |
1s |
P12V1 |
Input |
11.0V~13.2V |
Unused floating |
Unused floating |
1s |
P12V2 |
Input |
11.0V~13.2V |
Unused floating |
Unused floating |
1s |
P3V32 |
Input |
3.0V~3.6V |
N/A |
1.8A |
1s |
PVREF |
Output |
1.8V |
N/A |
0.5A |
N/A |
总功耗 |
300W |
4.2. Mezzanine连接器主要信号分布¶
云燧T21人工智能训练OAM模组采用的Mezzanine 连接器型号为:MEZZ CONN PRO,支持PCIe 4.0 X 16接口,并且支持6路GCU-LARE,单路GCU-LARE双向带宽50GB/s,总带宽300GB/s,分别连接SERDES1L、SERDES2L、SERDES3L、SERDES4L、SERDES5L、SERDES6L。
模块 |
信号 |
电压 |
备注 |
---|---|---|---|
PCIE 4.0 x16 |
PET p/n [15:0] |
AC coupling cap must be placed on UBB |
|
PER p/n [15:0] |
AC coupling cap must be placed on UBB |
||
SERDES 6 ports x 8 Lanes/port |
SERDES1[7:0] |
||
SERDES2[7:0] |
|||
SERDES3[7:0] |
|||
SERNES4[7:0] |
|||
SERDES5[7:0] |
|||
SERDES6[7:0] |
|||
QSFP-DD Sideband Group |
CONN1_INIT_MODE |
1.8V |
Not Support |
...... |
|||
CONN2_INIT_MODE |
|||
...... |
|||
Module ID |
MODULE_ID [4:0] |
1.8V |
Default Pull up on OAM |
Link Config |
LINK_CONFIG [4:0] |
1.8V |
Default Pull up on OAM |
SMBus |
I2C_SLV_D |
3.3V |
Default Pull up on OAM |
I2C_SLV_CLK |
3.3V |
Default Pull up on OAM |
|
I2C_SLV_ALERT# |
3.3V |
Default Pull up on OAM |
|
JTAG |
JTAG_TCK_LS |
1.8V |
|
JTAG_TDI_LS |
1.8V |
||
JTAG_TMS_LS |
1.8V |
||
JTAG_TDO_LS |
1.8V |
||
JTAG_TRST#_LS |
1.8V |
||
Misc |
WARMRST# |
1.8V |
Default Pull up on OAM |
DEBUG_PORT_PRSNT# |
3.3V |
Default Pull up on OAM |
|
PERST# |
3.3V |
Input signal,no pull down or pull up on OAM |
|
MODULE_PWRGD |
3.3V |
Default Pull up on OAM |
|
HOST_PWRGD |
3.3V |
Default Pull up on OAM |
|
THERMTRIP# |
3.3V |
Default Pull up on OAM. Active low and latched by the module logic. Released when the motherboard power cycles the module input voltages on module. |
|
PE_BIF[1:0] |
1.8V |
Default Pull down on OAM. 00 = one x16 PCIe host interface |
|
PLINK_CAP |
1.8V |
Default Pull down on OAM. ‘0’ = PCIe only support |
|
SCALE_DEBUG_EN |
3.3V |
Default Pull up on OAM |
|
TEST |
TEST0_F26 |
1.8V |
OAM Factory Test. Must be floating on UBB |
TEST2_F30 |
1.8V |
OAM Factory Test. Must be floating or default pull down on UBB |
|
TEST5_F37 |
1.8V |
OAM Factory Test. Must be floating on UBB |
|
TEST6_F38 |
1.8V |
OAM Factory Test. Must be floating on UBB |
|
TEST7_41 |
1.8V |
OAM Factory Test. Must be floating on UBB |
|
TEST9_49 |
1.8V |
OAM Factory Test. Must be floating on UBB |
|
TEST12_F17 |
3.3V |
Pull up/Pull down/Floating on UBB |
|
TEST13_F18 |
3.3V |
Pull up/Pull down/Floating on UBB |
- 3
Mezzanine接口详细定义及配置要求请参考OCP spec 1.1 version 6/30/2020。
4.3. 工作环境¶
环境参数 |
工作条件 |
---|---|
工作环境温度 |
5 °C ~ 45 °C |
贮存运输温度 |
-40 °C ~ 75 °C |
工作环境湿度 |
5% ~ 90%相对湿度 |
贮存运输湿度 |
5% ~ 95%相对湿度 |
4.4. 散热要求¶
温度定义¶
参数 |
HBM2E |
GCU |
单位 |
---|---|---|---|
总功耗 |
≤300 |
W |
|
熔断保护温度4 |
110 |
105 |
°C |
警告温度5 |
105 |
100 |
°C |
最大操作温度6 |
100 |
95 |
°C |
最佳性能温度范围 |
0-85 |
0-93 |
°C |
液冷散热要求¶
参数 |
值 |
单位 |
---|---|---|
GCU水流流量 |
≥2.4 (推荐值 5) |
LPM |
CDU 二次侧水温 |
≥机房露点温度 +3 且≤45 |
°C |
最大水压 |
1 |
MPa |
环境温度范围 |
5-45 |
°C |
风冷散热要求¶
云燧T21开放加速模组采用被动散热,在风冷方案中,支持双向风流,风可以从左往右吹,也可以从右往左吹。
散热器风入口温度和对应的最小风量要求如下表:
散热器风入口温度(°C) |
燧原科技验证 |
|
---|---|---|
35 |
14 |
Y |
40 |
19 |
Y |
45 |
28 |
Y |
任何温度9 |
14 |
Y |