1. 前言

1.1. 声明

本文档提供的信息属于上海燧原科技有限公司和/或其子公司(以下统称“燧原科技”)所有,且燧原科技保留不经通知随时对本文档信息或对任何产品和服务做出修改的权利。本文档所含信息和本文档所引用燧原科技其他信息均“按原样”提供。燧原科技不担保信息、文本、图案、链接或本文档内所含其他项目的准确性或完整性。燧原科技不对本文档所述产品的可销售性、所有权、不侵犯知识产权、准确性、完整性、稳定性或特定用途适用性做任何暗示担保、保证。燧原科技可不经通知随时对本文档或本文档所述产品做出更改,但不承诺更新本文档。

在任何情况下,燧原科技不对因使用或无法使用本文档而导致的任何损害(包括但不限于利润损失、业务中断和信息损失等损害)承担责任。燧原科技不承担因应用或使用本文档所述任何产品或服务而产生的任何责任。

本文档所列的规格参数、性能数据和等级需使用特定芯片或计算机系统或组件来测量。经该等测试,本文档所示结果反映了燧原科技产品的大概性能。系统配置及软硬件版本、环境变量等的任何不同会影响实际性能,产品实际效果与文档描述存在差异的,均属正常现象。燧原科技不担保测试每种产品的所有参数。客户自行承担对产品适合并适用于客户计划的应用以及对应用程序进行必要测试的责任。客户产品设计的脆弱性会影响燧原科技产品的质量和可靠性并导致超出本文档范围的额外或不同的情况和/或要求。

燧原科技和燧原科技的标志是上海燧原科技有限公司申请和/或注册的商标。本文档并未明示或暗示地授予客户任何专利、版权、商标、集成电路布图设计、商业秘密或任何其他燧原科技知识产权的权利或许可。

本文档为版权所有并受全世界版权法律和条约条款的保护。未经燧原科技的事先书面许可,任何人不可以任何方式复制、修改、出版、上传、发布、传输或分发本文档。为免疑义,除了允许客户按照本文档要求使用文档相关信息外,燧原科技不授予其他任何明示或暗示的权利或许可。

燧原科技对本文档享有最终解释权。

1.2. 版本历史

表 1.2.5 版本历史

版本

日期

描述

1.0

2022年10月10日

初始版本

1.1

2022年11月25日

1.产品功耗由400W变更为300W

2.删除风冷产品形态

3.增加液冷的散热要求

1.2

2023年03月15日

1.修订电源接口描述和 Mezzanine 接口描述

1.3

2023年07月04日

1.增加风冷产品形态

2.更新液冷散热需求表

3.更新最小风量表

1.4

2023年10月24日

在规格参数中增加中英文产品名称

1.3. 词汇表

表 1.3.5 词汇表

术语

定义

OCP

Open Compute Project, 开放计算项目

OAM

OCP Accelerator Module, 开放加速模组

OAI

Open Accelerator Infrastructure开放加速器基础设施

BDF

Bus Device Function PCIe总线功能标识符

RDMA

Remote Direct Memory Access远程直接数据存储

GCU-CARE

General Compute Unit – Compute All Round Engine燧原科技计算引擎

GCU-LARE

General Compute Unit - Link All Round Engine燧原科技互联引擎

APC

Adaptive Power Control 自适应功耗控制

DVFS

Dynamic Voltage Frequency Scaling 动态电压频率控制

EDC

Electrical Design Current 电气设计电流

TDC

Thermal Design Current 热设计电流

CDU

Cooling Distribution Unit 制冷分配单元

2. 简介

云燧T21(CloudBlazer T21)是基于OCP(开放计算项目)OAM(开放加速模组)标准设计、兼容OCP OAI标准(开放加速器基础设施)的高性能人工智能训练加速模组。

云燧T21符合OAM设计规范,可广泛兼容业内主流云端AI基础设施,满足AI训练的高算力需求,尤其对BERT、GPT等超大模型训练具有较好的加速效果。

云燧T21支持业内主流框架,结合燧原科技驭算TopsRider平台做深度优化,通过SDK、定制化接口、自定义算子等多种方式开放芯片能力,携手客户及合作伙伴一起共建产业生态。

云燧T21训练加速模型全面提升了针对人工智能多场景多模型的广泛覆盖和泛化支持能力,结合泛互联网、传统行业和新基建等业务领域的智能化升级需求提供支持,作为算力基础设施和开发算法模型的生产力工具,提供对视觉检测跟踪分类、语音识别与合成、自然语言处理、强化学习等多种场景的广泛支持。

2.1. 主要特征

性能

  • 计算引擎

    • 支持FP32、FP16、BF16、INT8等多种数据精度,提供领先的单精度浮点性能

    • 高可编程性,支持矢量、张量等多种计算类型,支持超越函数计算加速

  • 存储引擎

    • 三层存储结构设计,基于深度学习训练计算负载进行了深度效率优化

    • 国内首个支持HBM2E存储方案的训练加速模组,提供业界领先的存储容量和存储带宽

  • 数据引擎

    • 面向张量AI数据流计算加速的数据引擎,支持切分/逆切分、维度变换、拼接、降采样、镜像、常量填充等

    • 支持融合型张量操作

    • 支持数据多地址广播

    • 硬件多重循环指令,降低同步开销

扩展

  • 高效支持算力扩展

    • 提供独立的高速互联接口,单卡支持6路GCU-LARE,共提供300GB/s的双向传输带宽

    • 支持基于PCIe接口、GCU-LARE接口的节点内P2P互联

    • 支持基于网卡的节点间互联,可实现千卡以上级别规模的分布式集群方案

系统

  • 智能功耗管理

    • 支持基于APC方案的芯片及板卡级功耗实时管理

    • 包含针对功耗检测、DIDT监控、均值/峰值电流检测、温度检测等多重保护机制

    • 提供实时、准确、稳定的功耗与电流控制

    • 提供基于DVFS的动态细粒度调频调压智能系统,根据实时负载提供灵活的性能加速

  • 系统监控管理

    • 支持对温度、电压、功耗等运行指标的实时监测与管理

    • 支持BMC通过SMBUS接口进行带外管理,监控设备状态信息

软件栈

驭算TopsRider是燧原科技自主知识产权的计算及编程平台,通过软硬件协同的架构设计,充分释放T21的性能。全新的驭算2.0软件栈,通过软硬件结合提供极致的性能和优化的编程环境,进一步降低了用户的迁移成本和学习成本。驭算TopsRider适配主流框架,提供工具链支持开发与调优,不断提升用户的使用体验。

  • 全新编程模型,开放编程接口

    • 可以操作标量和多维数组的通用高性能编程接口库

    • 以C++EDSL的方式提供了C++编程接口,帮助用户更快地熟悉并上手

    • 定义了一套执行模型和存储模型,用于简化数据切分和数据流操作

  • 自适应图优化策略及算子泛化

    • 针对深度神经网络的统一模型进行处理,进行算子融合等高层图优化,并提供动态性支持

  • 全新profiling工具

    • 高性能profiling工具准确定位系统的软、硬件性能瓶颈,提高性能分析的效率,通过针对性的性能优化,以最小的代价和成本实现业务场景的极致性能

  • 系统级设备虚拟化

    • 虚拟化实现计算、存储、网络的解耦,为IaaS层资源的灵活编排提供了基础

    • 资源可灵活切分,使算力资源的分配和用户业务算力的需求达到匹配,实现最大化利用率从而降低成本

  • 高加速比分布式训练能力

    • 云燧集群通信库ECCL 2.0添加了RDMA peer direct特性的支持,以达到节约RDMA网卡成本和RDMA多租户隔离的双重目的

    • 在拓扑算法上,ECCL 2.0对2D-Mes pro 进行了升级以更好地支持资源弹性分配

../../../../../_images/TopsRider软件栈架构图.png

图 2.1.3 驭算TopsRider软件栈架构图

3. 规格

3.1. 规格参数

表 3.1.5 规格参数

规格

特征项

参数

产品名称Product Name

中文

云燧T21

英文

CloudBlazer T21

产品型号Product Model

T21

产品部件号Product PN

液冷 OAM 模组

EFB-0068000-00

风冷 OAM 模组

EFB-0068001-00

PCI Device IDs

Vendor ID

0x1e36

Device ID

0x0023

Sub-Vendor ID

0x1e36

Sub-System ID

0x0023

计算精度支持

FP32

FP16/BF16

INT32/INT16/INT8

GCU-CARE核心数量

24

内存规格

容量

32GB

带宽

1.6TB/s

接口规格

PCIe

PCIe 4.0 x16

GCU-LARE

300GB/s

功耗

最大功耗

300W

散热设计

被动散热

重量

液冷 OAM 模组

0.71kg

风冷 OAM 模组

1.89kg

3.2. 产品外观

液冷 OAM 模组

../../../../../_images/T21液冷外观图.png

图 3.2.6 云燧T21 液冷 OAM 模组外观图

../../../../../_images/T21液冷四视图.png

图 3.2.7 云燧 T21 液冷 OAM 模组四视图

风冷 OAM 模组

../../../../../_images/T21风冷外观图.png

图 3.2.8 云燧T21 风冷 OAM 模组外观图

../../../../../_images/T21风冷四视图.png

图 3.2.9 云燧 T21 风冷 OAM 模组四视图

4. 电气特性

4.1. 电源接口

云燧系列T21人工智能训练OAM模组采用Mezzanine连接器接口供电,供电电源符合OAM规范,分别为P54V、P3V3(云燧T21默认不支持12V供电输入),电源接口具体电气特性如下:

表 4.1.4 电源接口电气特性表

电源输入

类型

电压范围

EDC

Max TDC

滑动平均

P54V1

Input

48V~59.5V

11.85A

6.1A

1s

P12V1

Input

11.0V~13.2V

Unused floating

Unused floating

1s

P12V2

Input

11.0V~13.2V

Unused floating

Unused floating

1s

P3V32

Input

3.0V~3.6V

N/A

1.8A

1s

PVREF

Output

1.8V

N/A

0.5A

N/A

总功耗

300W

1

推荐输入电压P54V或P48V。上表中电流值基于P54V输入电压测得。

2

P3V3 功率要求请参考OAM spec v1.1 definition。

4.2. Mezzanine连接器主要信号分布

云燧T21人工智能训练OAM模组采用的Mezzanine 连接器型号为:MEZZ CONN PRO,支持PCIe 4.0 X 16接口,并且支持6路GCU-LARE,单路GCU-LARE双向带宽50GB/s,总带宽300GB/s,分别连接SERDES1L、SERDES2L、SERDES3L、SERDES4L、SERDES5L、SERDES6L。

../../../../../_images/云燧T21SERDES连接分布图.png

图 4.2.2 云燧T21 SERDES连接分布图

表 4.2.2 Mezzanine连接器主要信号分布表 3

模块

信号

电压

备注

PCIE 4.0 x16

PET p/n [15:0]

AC coupling cap must be placed on UBB

PER p/n [15:0]

AC coupling cap must be placed on UBB

SERDES

6 ports

x 8 Lanes/port

SERDES1[7:0]

SERDES2[7:0]

SERDES3[7:0]

SERNES4[7:0]

SERDES5[7:0]

SERDES6[7:0]

QSFP-DD

Sideband

Group

CONN1_INIT_MODE

1.8V

Not Support

......

CONN2_INIT_MODE

......

Module ID

MODULE_ID [4:0]

1.8V

Default Pull up on OAM

Link Config

LINK_CONFIG [4:0]

1.8V

Default Pull up on OAM

SMBus

I2C_SLV_D

3.3V

Default Pull up on OAM

I2C_SLV_CLK

3.3V

Default Pull up on OAM

I2C_SLV_ALERT#

3.3V

Default Pull up on OAM

JTAG

JTAG_TCK_LS

1.8V

JTAG_TDI_LS

1.8V

JTAG_TMS_LS

1.8V

JTAG_TDO_LS

1.8V

JTAG_TRST#_LS

1.8V

Misc

WARMRST#

1.8V

Default Pull up on OAM

DEBUG_PORT_PRSNT#

3.3V

Default Pull up on OAM

PERST#

3.3V

Input signal,no pull down or pull up on OAM

MODULE_PWRGD

3.3V

Default Pull up on OAM

HOST_PWRGD

3.3V

Default Pull up on OAM

THERMTRIP#

3.3V

Default Pull up on OAM. Active low and latched by the module logic. Released when the motherboard power cycles the module input voltages on module.

PE_BIF[1:0]

1.8V

Default Pull down on OAM. 00 = one x16 PCIe host interface

PLINK_CAP

1.8V

Default Pull down on OAM. ‘0’ = PCIe only support

SCALE_DEBUG_EN

3.3V

Default Pull up on OAM

TEST

TEST0_F26

1.8V

OAM Factory Test. Must be floating on UBB

TEST2_F30

1.8V

OAM Factory Test. Must be floating or default pull down on UBB

TEST5_F37

1.8V

OAM Factory Test. Must be floating on UBB

TEST6_F38

1.8V

OAM Factory Test. Must be floating on UBB

TEST7_41

1.8V

OAM Factory Test. Must be floating on UBB

TEST9_49

1.8V

OAM Factory Test. Must be floating on UBB

TEST12_F17

3.3V

Pull up/Pull down/Floating on UBB

TEST13_F18

3.3V

Pull up/Pull down/Floating on UBB

3

Mezzanine接口详细定义及配置要求请参考OCP spec 1.1 version 6/30/2020。

4.3. 工作环境

表 4.3.1 工作环境

环境参数

工作条件

工作环境温度

5 °C ~ 45 °C

贮存运输温度

-40 °C ~ 75 °C

工作环境湿度

5% ~ 90%相对湿度

贮存运输湿度

5% ~ 95%相对湿度

4.4. 散热要求

温度定义

表 4.4.2 温度定义

参数

HBM2E

GCU

单位

总功耗

≤300

W

熔断保护温度4

110

105

°C

警告温度5

105

100

°C

最大操作温度6

100

95

°C

最佳性能温度范围

0-85

0-93

°C

4

当 HBM2E结温大于等于表中温度或者GCU结温大于等于表中温度时,会触发芯片熔断保护机制。

5

当 HBM2E结温大于等于表中温度或者GCU结温大于等于表中温度时,芯片的工作频率会降到最低,建议风扇转速调至 100%。

6

当 HBM2E结温大于等于表中温度或者GCU结温大于等于表中温度时,将触发芯片降频。

液冷散热要求

表 4.4.3 液冷散热要求

参数

单位

GCU水流流量

≥2.4 (推荐值 5)

LPM

CDU 二次侧水温

≥机房露点温度 +3 且≤45

°C

最大水压

1

MPa

环境温度范围

5-45

°C

风冷散热要求

云燧T21开放加速模组采用被动散热,在风冷方案中,支持双向风流,风可以从左往右吹,也可以从右往左吹。

../../../../../_images/T21风冷正视图-双向风流向图.png

图 4.4.1 风冷 OAM 模组散热器风流方向图

散热器风入口温度和对应的最小风量要求如下表:

表 4.4.4 最小风量表

散热器风入口温度(°C)

最小风量(CFM)78

燧原科技验证

35

14

Y

40

19

Y

45

28

Y

任何温度9

14

Y

7

最小风量是假定所有输送的风都会通过云燧T21 OAM模组被动散热系统,风量必须大于等于最小风量。

8

表格中的最小风量和散热器风入口温度数据是一个经过燧原科技验证过的参考值,不是一个绝对的规范。系统设计可以参考这些数据进行系统散热调优。

9

此处的最小风量是指云燧T21 OAM模组上电以后所需的最小风量,与系统操作模式和风入口温度无关。