1. 前言

1.1. 声明

本文档提供的信息属于上海燧原科技有限公司和/或其子公司(以下统称“燧原科技”)所有,且燧原科技保留不经通知随时对本文档信息或对任何产品和服务做出修改的权利。本文档所含信息和本文档所引用燧原科技其他信息均“按原样”提供。燧原科技不担保信息、文本、图案、链接或本文档内所含其他项目的准确性或完整性。燧原科技不对本文档所述产品的可销售性、所有权、不侵犯知识产权、准确性、完整性、稳定性或特定用途适用性做任何暗示担保、保证。燧原科技可不经通知随时对本文档或本文档所述产品做出更改,但不承诺更新本文档。

在任何情况下,燧原科技不对因使用或无法使用本文档而导致的任何损害(包括但不限于利润损失、业务中断和信息损失等损害)承担责任。燧原科技不承担因应用或使用本文档所述任何产品或服务而产生的任何责任。

本文档所列的规格参数、性能数据和等级需使用特定芯片或计算机系统或组件来测量。经该等测试,本文档所示结果反映了燧原科技产品的大概性能。系统配置及软硬件版本、环境变量等的任何不同会影响实际性能,产品实际效果与文档描述存在差异的,均属正常现象。燧原科技不担保测试每种产品的所有参数。客户自行承担对产品适合并适用于客户计划的应用以及对应用程序进行必要测试的责任。客户产品设计的脆弱性会影响燧原科技产品的质量和可靠性并导致超出本文档范围的额外或不同的情况和/或要求。

燧原科技和燧原科技的标志是上海燧原科技有限公司申请和/或注册的商标。本文档并未明示或暗示地授予客户任何专利、版权、商标、集成电路布图设计、商业秘密或任何其他燧原科技知识产权的权利或许可。

本文档为版权所有并受全世界版权法律和条约条款的保护。未经燧原科技的事先书面许可,任何人不可以任何方式复制、修改、出版、上传、发布、传输或分发本文档。为免疑义,除了允许客户按照本文档要求使用文档相关信息外,燧原科技不授予其他任何明示或暗示的权利或许可。

燧原科技对本文档享有最终解释权。

1.2. 版本历史

表 1.2.7 版本历史

版本

日期

描述

1.0

2021年12月17日

初始版本

1.1

2022年3月1日

增加液冷部分描述

1.2

2022年3月26日

1.“水冷”修改为“液冷”

2.增加MPN及注释

3.更新算力、内存、接口等规格参数

4.更新电源接口与Mezzanine接口参数描述

1.3. 词汇表

表 1.3.6 词汇表

术语

定义

OCP

Open Compute Project, 开放计算项目

OAM

OCP Accelerator Module, 开放加速模组

OAI

Open Accelerator Infrastructure, 开放加速器基础设施

GCU-CARE

General Compute Unit – Compute All Round Engine 燧原科技计算引擎

GCU-LARE

General Compute Unit - Link All Round Engine 燧原科技互联引擎

2. 简介

云燧T11是基于OCP(开放计算项目)OAM(开放加速模组)标准设计、兼容OCP OAI标准(开放加速器基础设施)的高性能人工智能训练加速模组。

云燧T11基于邃思系列AI芯片,提供单精度(FP32)19.2TFLOPS、混合精度(BF16/FP16)76.8TFLOPS的超强算力,并支持混合精度运算,最大功耗300W;借助燧原科技GCU-LARE片间高速互联技术,可实现单机多节点、千级节点集群互联,满足数据中心AI训练高性能需求,可广泛应用于互联网、金融、教育、医疗、工业以及政务等行业。

云燧T11符合OAM设计规范,可广泛兼容业内主流云端AI基础设施,满足AI训练的高算力需求,尤其对BERT、GPT等超大模型训练具有较好的加速效果。

云燧T11支持业内主流框架,结合燧原科技驭算TopsRider软件平台做深度优化,通过SDK、定制化接口、自定义算子等多种方式开放芯片能力,携手客户及合作伙伴一起共建产业生态。

../../../../../_images/T11产品简介1.png

云燧T11集成具有完全自主知识产权的神经元处理架构和数据处理引擎,实现片上无Cache设计和可编程的通用张量运算核心,支持各类数据精度的主流深度学习训练负载。

支持FP32+BF16混合精度计算,相对于传统的FP32+FP16混合运算方式,BF16数据精度可以在不引入溢出错误的情况下实现低数据精度训练,用户无需修改程序,迁移成本低,性能优。

../../../../../_images/T11产品简介2.png

GCU-LARE互联技术创新性实现了云燧T11模组间的互联,可提供最大双向200GB/s的卡间通信带宽,轻松实现基于多卡互联的AI集群部署和扩展方案。

存储带宽和容量是影响深度学习训练计算能力的重要因素,云燧T11采用业内最高端的HBM存储技术,单芯片提供16GB存储配置,带宽达到512GB/s,并基于深度学习训练计算负载进行了深度效率优化。

3. 规格

3.1. 规格参数

表 3.1.10 规格参数

规格

特征项

参数

产品型号 Product SKU

T11

产品部件号Product PN1

EFB-0018001-00

制造部件号MPN2

EFM-0018001-00

PCI Device IDs

Vendor ID

0x1e36

Device ID

0x0002

Sub-Vendor ID

0x1e36

Sub-System ID

0x0002

计算精度支持

FP32/FP16/BF16

INT32/INT16/INT8

GCU-CARE核心数量

32

AI算力

FP32算力

22 TFLOPS

BF16/FP16算力

86 TFLOPS

内存规格

容量

16 GB

带宽

588.8 TB/s

接口规格

PCIe

PCIe 4.0x16

GCU-LARE

200 GB/s

功耗

最大功耗

300 W

散热设计

被动散热

净重

不带散热器

0.71Kg

带散热器

1.87Kg

1

PN为产品部件号,是该产品的唯一电子料号。EFB(Enflame BOM),包含板卡的电子料、芯片、结构件、散热器等。

2

MPN为产品料号,不同的配件与包材会对应不同的MPN,用于客户采购中的PO(Purchase Order)下单以及物料系统管控。EFM(Enflame Manufacture),包含电子料BOM和包材、螺丝等配件。此处MPN为液冷T11产品料号.

3.2. 产品外观

3.2.1. 不带散热器(液冷)

../../../../../_images/云燧T11外观图(水冷).png

图 3.2.20 云燧T11外观图(液冷)

../../../../../_images/云燧T11四视图(水冷).png

图 3.2.21 云燧T11四视图(液冷)

3.2.2. 带散热器(风冷)

../../../../../_images/云燧T11外观图(风冷).png

图 3.2.22 云燧T11外观图(风冷)

../../../../../_images/云燧T11四视图(风冷).png

图 3.2.23 云燧T11四视图(风冷)

4. 电气特性

4.1. 电源接口

云燧系列T11人工智能训练OAM模组采用Mezzanine连接器接口供电,符合OAM规范的电源供电,分别为P48V、P12V、P3V3(云燧T11默认为P48V base OAM以支持更高的功耗和算力),具体供电及电气特性如下:

表 4.1.7 供电及电气特性表

电源输入

电压范围

电流最大值

滑动平均

P48V3

48V~59.5V

7A

1s

P12V

11.0V~13.2V

N/A

1s

P3.3V

3.0V~3.6V

2A

1s

总功耗

300W

1s

3

推荐输入电压P48V或P54V。

4.2. Mezzanine连接器主要信号分布

云燧T11人工智能训练OAM模组支持PCIe 4.0 X 16接口,并且支持4路GCU-LARE,单路GCU-LARE双向带宽50GB/s,总带宽200GB/s,分别连接SERDES2L、SERDES3L、SERNES4L、SERDES6L。

../../../../../_images/云燧T11SERDES连接分布图.png

图 4.2.3 云燧T11 SERDES连接分布图

表 4.2.5 Mezzanine连接器主要信号分布表

模块

信号

电压

备注

PCIE 4.0 x16

PET p/n [15:0]

PER p/n [15:0]

SERDES

4 ports

x 8 Lanes/port

SERDES2[7:0]

SERDES3[7:0]

SERNES4[7:0]

SERDES6[7:0]

Module ID

MODULE_ID [4:0]

SMBus

I2C_SLV_D

3.3V

I2C_SLV_CLK

3.3V

I2C_SLV_ALERT#

3.3V

JTAG

JTAG_TCK_LS

1.8V

JTAG_TDI_LS

1.8V

JTAG_TMS_LS

1.8V

JTAG_TDO_LS

1.8V

JTAG_TRST#_LS

1.8V

Misc

PVREF

1.8V

WARMRST#

1.8V

1V8 MODULE PU

DEBUG_PORT_PRSNT#

3.3V

3V3 MODULE PU

PERST#

3.3V

3V3 Need UBB Config

MODULE_PWRGD

3.3V

3V3 MODULE PU

HOST_PWRGD

3.3V

3V3 MODULE PU

THERMTRIP#

3.3V

Active low and latched by the module logic. Released until motherboard power cycles the module input voltages

PE_BIF[1:0]

1.8V

00 = one x16 PCIe host interface pull down ,OAM config 00

PLINK_CAP

1.8V

‘0’ = PCIe only support pull down ,OAM config 00

SCALE_DEBUG_EN

3.3V

3V3 MODULE PU

4.3. 工作环境

表 4.3.6 工作环境参数表

环境参数

工作条件

工作环境温度

0 °C ~ 45 °C

贮存运输温度

-40 °C ~ 75 °C

工作环境湿度

5% ~ 90%相对湿度

贮存运输湿度

5% ~ 95%相对湿度

4.4. 散热要求

4.4.1. 温度定义

表 4.4.5 温度定义表

参数

单位

总功耗

300

W

关机温度 Tj45

110

°C

警告温度6

100

°C

最大正常工作温度7

95

°C

4

Tj指GCU-CARE和HBM的结温温度。

5

当大于等于此结温温度时,触发芯片熔断保护机制。

6

当大于等于此结温温度时,芯片的工作频率会即刻降到最低,建议风扇转速调至100%。

7

当大于等于此结温温度时,必然触发芯片降频。

4.4.2. 液冷散热要求

以下参数基于浪潮NF5498LA5服务器的液冷设计。

表 4.4.6 液冷散热要求表

参数

单位

最小水流流量

2.4

LPM

最大水压

1

MPa

环境温度范围

5-35

°C

4.4.3. 风冷散热要求

云燧T11开放加速模组采用被动散热,在风冷方案中,支持双向风流,风可以从左往右吹,也可以从右往左吹。

../../../../../_images/云燧T11风冷散热器风流方向图.png

图 4.4.2 云燧T11风冷散热器风流方向图

表 4.4.7 最小风量表

散热器风入口温度(°C)

最小风量(CFM)89

燧原科技验证

30

17

Y

35

20

Y

40

25

Y

45

30

Y

任何温度10

17

Y

8

最小风量是假定所有输送的风都会通过云燧T11系列板卡被动散热,系统风量必须大于等于最小风量。

9

表格中的最小风量和散热器风入口温度数据是一个经过燧原验证过的参考值,不是一个绝对的规范。系统设计可以参考这些数据进行系统散热调优。

10

此处的最小风量是指云燧T11系列板卡上电以后所需的最小风量,与系统操作模式和风入口温度无关。