1. 前言¶
1.1. 声明¶
本文档提供的信息属于上海燧原科技有限公司和/或其子公司(以下统称“燧原科技”)所有,且燧原科技保留不经通知随时对本文档信息或对任何产品和服务做出修改的权利。本文档所含信息和本文档所引用燧原科技其他信息均“按原样”提供。燧原科技不担保信息、文本、图案、链接或本文档内所含其他项目的准确性或完整性。燧原科技不对本文档所述产品的可销售性、所有权、不侵犯知识产权、准确性、完整性、稳定性或特定用途适用性做任何暗示担保、保证。燧原科技可不经通知随时对本文档或本文档所述产品做出更改,但不承诺更新本文档。
在任何情况下,燧原科技不对因使用或无法使用本文档而导致的任何损害(包括但不限于利润损失、业务中断和信息损失等损害)承担责任。燧原科技不承担因应用或使用本文档所述任何产品或服务而产生的任何责任。
本文档所列的规格参数、性能数据和等级需使用特定芯片或计算机系统或组件来测量。经该等测试,本文档所示结果反映了燧原科技产品的大概性能。系统配置及软硬件版本、环境变量等的任何不同会影响实际性能,产品实际效果与文档描述存在差异的,均属正常现象。燧原科技不担保测试每种产品的所有参数。客户自行承担对产品适合并适用于客户计划的应用以及对应用程序进行必要测试的责任。客户产品设计的脆弱性会影响燧原科技产品的质量和可靠性并导致超出本文档范围的额外或不同的情况和/或要求。
燧原科技和燧原科技的标志是上海燧原科技有限公司申请和/或注册的商标。本文档并未明示或暗示地授予客户任何专利、版权、商标、集成电路布图设计、商业秘密或任何其他燧原科技知识产权的权利或许可。
本文档为版权所有并受全世界版权法律和条约条款的保护。未经燧原科技的事先书面许可,任何人不可以任何方式复制、修改、出版、上传、发布、传输或分发本文档。为免疑义,除了允许客户按照本文档要求使用文档相关信息外,燧原科技不授予其他任何明示或暗示的权利或许可。
燧原科技对本文档享有最终解释权。
1.2. 版本历史¶
版本 |
日期 |
描述 |
---|---|---|
1.0 |
2021年12月17日 |
初始版本 |
1.1 |
2022年3月1日 |
增加液冷部分描述 |
1.2 |
2022年3月26日 |
1.“水冷”修改为“液冷” |
2.增加MPN及注释 |
||
3.更新算力、内存、接口等规格参数 |
||
4.更新电源接口与Mezzanine接口参数描述 |
1.3. 词汇表¶
术语 |
定义 |
---|---|
OCP |
Open Compute Project, 开放计算项目 |
OAM |
OCP Accelerator Module, 开放加速模组 |
OAI |
Open Accelerator Infrastructure, 开放加速器基础设施 |
GCU-CARE |
General Compute Unit – Compute All Round Engine 燧原科技计算引擎 |
GCU-LARE |
General Compute Unit - Link All Round Engine 燧原科技互联引擎 |
2. 简介¶
云燧T11是基于OCP(开放计算项目)OAM(开放加速模组)标准设计、兼容OCP OAI标准(开放加速器基础设施)的高性能人工智能训练加速模组。
云燧T11基于邃思系列AI芯片,提供单精度(FP32)19.2TFLOPS、混合精度(BF16/FP16)76.8TFLOPS的超强算力,并支持混合精度运算,最大功耗300W;借助燧原科技GCU-LARE片间高速互联技术,可实现单机多节点、千级节点集群互联,满足数据中心AI训练高性能需求,可广泛应用于互联网、金融、教育、医疗、工业以及政务等行业。
云燧T11符合OAM设计规范,可广泛兼容业内主流云端AI基础设施,满足AI训练的高算力需求,尤其对BERT、GPT等超大模型训练具有较好的加速效果。
云燧T11支持业内主流框架,结合燧原科技驭算TopsRider软件平台做深度优化,通过SDK、定制化接口、自定义算子等多种方式开放芯片能力,携手客户及合作伙伴一起共建产业生态。
云燧T11集成具有完全自主知识产权的神经元处理架构和数据处理引擎,实现片上无Cache设计和可编程的通用张量运算核心,支持各类数据精度的主流深度学习训练负载。
支持FP32+BF16混合精度计算,相对于传统的FP32+FP16混合运算方式,BF16数据精度可以在不引入溢出错误的情况下实现低数据精度训练,用户无需修改程序,迁移成本低,性能优。
GCU-LARE互联技术创新性实现了云燧T11模组间的互联,可提供最大双向200GB/s的卡间通信带宽,轻松实现基于多卡互联的AI集群部署和扩展方案。
存储带宽和容量是影响深度学习训练计算能力的重要因素,云燧T11采用业内最高端的HBM存储技术,单芯片提供16GB存储配置,带宽达到512GB/s,并基于深度学习训练计算负载进行了深度效率优化。
3. 规格¶
3.1. 规格参数¶
规格 |
特征项 |
参数 |
---|---|---|
产品型号 Product SKU |
T11 |
|
产品部件号Product PN1 |
EFB-0018001-00 |
|
制造部件号MPN2 |
EFM-0018001-00 |
|
PCI Device IDs |
Vendor ID |
0x1e36 |
Device ID |
0x0002 |
|
Sub-Vendor ID |
0x1e36 |
|
Sub-System ID |
0x0002 |
|
计算精度支持 |
FP32/FP16/BF16 INT32/INT16/INT8 |
|
GCU-CARE核心数量 |
32 |
|
AI算力 |
FP32算力 |
22 TFLOPS |
BF16/FP16算力 |
86 TFLOPS |
|
内存规格 |
容量 |
16 GB |
带宽 |
588.8 TB/s |
|
接口规格 |
PCIe |
PCIe 4.0x16 |
GCU-LARE |
200 GB/s |
|
功耗 |
最大功耗 |
300 W |
散热设计 |
被动散热 |
|
净重 |
不带散热器 |
0.71Kg |
带散热器 |
1.87Kg |
3.2. 产品外观¶
3.2.1. 不带散热器(液冷)¶
3.2.2. 带散热器(风冷)¶
4. 电气特性¶
4.1. 电源接口¶
云燧系列T11人工智能训练OAM模组采用Mezzanine连接器接口供电,符合OAM规范的电源供电,分别为P48V、P12V、P3V3(云燧T11默认为P48V base OAM以支持更高的功耗和算力),具体供电及电气特性如下:
电源输入 |
电压范围 |
电流最大值 |
滑动平均 |
---|---|---|---|
P48V3 |
48V~59.5V |
7A |
1s |
P12V |
11.0V~13.2V |
N/A |
1s |
P3.3V |
3.0V~3.6V |
2A |
1s |
总功耗 |
300W |
1s |
- 3
推荐输入电压P48V或P54V。
4.2. Mezzanine连接器主要信号分布¶
云燧T11人工智能训练OAM模组支持PCIe 4.0 X 16接口,并且支持4路GCU-LARE,单路GCU-LARE双向带宽50GB/s,总带宽200GB/s,分别连接SERDES2L、SERDES3L、SERNES4L、SERDES6L。
模块 |
信号 |
电压 |
备注 |
---|---|---|---|
PCIE 4.0 x16 |
PET p/n [15:0] |
||
PER p/n [15:0] |
|||
SERDES 4 ports x 8 Lanes/port |
SERDES2[7:0] |
||
SERDES3[7:0] |
|||
SERNES4[7:0] |
|||
SERDES6[7:0] |
|||
Module ID |
MODULE_ID [4:0] |
||
SMBus |
I2C_SLV_D |
3.3V |
|
I2C_SLV_CLK |
3.3V |
||
I2C_SLV_ALERT# |
3.3V |
||
JTAG |
JTAG_TCK_LS |
1.8V |
|
JTAG_TDI_LS |
1.8V |
||
JTAG_TMS_LS |
1.8V |
||
JTAG_TDO_LS |
1.8V |
||
JTAG_TRST#_LS |
1.8V |
||
Misc |
PVREF |
1.8V |
|
WARMRST# |
1.8V |
1V8 MODULE PU |
|
DEBUG_PORT_PRSNT# |
3.3V |
3V3 MODULE PU |
|
PERST# |
3.3V |
3V3 Need UBB Config |
|
MODULE_PWRGD |
3.3V |
3V3 MODULE PU |
|
HOST_PWRGD |
3.3V |
3V3 MODULE PU |
|
THERMTRIP# |
3.3V |
Active low and latched by the module logic. Released until motherboard power cycles the module input voltages |
|
PE_BIF[1:0] |
1.8V |
00 = one x16 PCIe host interface pull down ,OAM config 00 |
|
PLINK_CAP |
1.8V |
‘0’ = PCIe only support pull down ,OAM config 00 |
|
SCALE_DEBUG_EN |
3.3V |
3V3 MODULE PU |
4.3. 工作环境¶
环境参数 |
工作条件 |
---|---|
工作环境温度 |
0 °C ~ 45 °C |
贮存运输温度 |
-40 °C ~ 75 °C |
工作环境湿度 |
5% ~ 90%相对湿度 |
贮存运输湿度 |
5% ~ 95%相对湿度 |
4.4. 散热要求¶
4.4.1. 温度定义¶
参数 |
值 |
单位 |
---|---|---|
总功耗 |
300 |
W |
110 |
°C |
|
警告温度6 |
100 |
°C |
最大正常工作温度7 |
95 |
°C |
4.4.2. 液冷散热要求¶
以下参数基于浪潮NF5498LA5服务器的液冷设计。
参数 |
值 |
单位 |
---|---|---|
最小水流流量 |
2.4 |
LPM |
最大水压 |
1 |
MPa |
环境温度范围 |
5-35 |
°C |
4.4.3. 风冷散热要求¶
云燧T11开放加速模组采用被动散热,在风冷方案中,支持双向风流,风可以从左往右吹,也可以从右往左吹。
散热器风入口温度(°C) |
燧原科技验证 |
|
---|---|---|
30 |
17 |
Y |
35 |
20 |
Y |
40 |
25 |
Y |
45 |
30 |
Y |
任何温度10 |
17 |
Y |