1. 前言

1.1. 声明

本文档提供的信息属于上海燧原科技有限公司和/或其子公司(以下统称“燧原科技”)所有,且燧原科技保留不经通知随时对本文档信息或对任何产品和服务做出修改的权利。本文档所含信息和本文档所引用燧原科技其他信息均“按原样”提供。燧原科技不担保信息、文本、图案、链接或本文档内所含其他项目的准确性或完整性。燧原科技不对本文档所述产品的可销售性、所有权、不侵犯知识产权、准确性、完整性、稳定性或特定用途适用性做任何暗示担保、保证。燧原科技可不经通知随时对本文档或本文档所述产品做出更改,但不承诺更新本文档。

在任何情况下,燧原科技不对因使用或无法使用本文档而导致的任何损害(包括但不限于利润损失、业务中断和信息损失等损害)承担责任。燧原科技不承担因应用或使用本文档所述任何产品或服务而产生的任何责任。

本文档所列的规格参数、性能数据和等级需使用特定芯片或计算机系统或组件来测量。经该等测试,本文档所示结果反映了燧原科技产品的大概性能。系统配置及软硬件版本、环境变量等的任何不同会影响实际性能,产品实际效果与文档描述存在差异的,均属正常现象。燧原科技不担保测试每种产品的所有参数。客户自行承担对产品适合并适用于客户计划的应用以及对应用程序进行必要测试的责任。客户产品设计的脆弱性会影响燧原科技产品的质量和可靠性并导致超出本文档范围的额外或不同的情况和/或要求。

燧原科技和燧原科技的标志是上海燧原科技有限公司申请和/或注册的商标。本文档并未明示或暗示地授予客户任何专利、版权、商标、集成电路布图设计、商业秘密或任何其他燧原科技知识产权的权利或许可。

本文档为版权所有并受全世界版权法律和条约条款的保护。未经燧原科技的事先书面许可,任何人不可以任何方式复制、修改、出版、上传、发布、传输或分发本文档。为免疑义,除了允许客户按照本文档要求使用文档相关信息外,燧原科技不授予其他任何明示或暗示的权利或许可。

燧原科技对本文档享有最终解释权。

2. 简介

燧原科技科技云燧T10系列板卡是基于邃思系列AI芯片打造的一款面向云端训练的PCIe加速卡。可广泛用于互联网、金融、教育、医疗、工业及政务等云端训练场景。

云燧T10加速卡基于邃思系列AI芯片,提供单精度(FP32)20TFLOPS和混合精度(BF16/FP16)80TFLOPS的超强算力,功耗225W;借助片间互联技术,提供了板卡互联技术方案,轻松实现基于多卡互联的AI集群部署和扩展方案。

云燧T10加速卡兼容业内云端通用训练AI基础设施,满足智能时代各种AI算法训练的算力要求和应用场景需求。

云燧T10加速卡支持业内主流框架,结合方便易用的深度学习全栈开发平台,通过灵活的合作方式与客户及合作伙伴一起共建开放产业生态。

../../../../../_images/DTU架构.png

图 2.2 邃思(DTU)架构

云燧T10集成具有完全自主知识产权的神经元处理架构和数据处理引擎实现片上无Cache设计和可编程的通用张量运算核心,支持各类数据精度的主流深度学习训练负载。

../../../../../_images/支持混合精度.png

图 2.3 支持混合精度

支持FP32+BF16混合精度计算,相对于传统的FP32+FP16混合运算方式,BF16数据精度可以在不引入溢出错误的情况下实现低数据精度训练,用户无需修改程序,迁移成本低,性能优。

../../../../../_images/ESL互联扩展.png

图 2.4 GCU-LARE互联拓展

GCU-LARE互联技术创新性地实现了云燧T10板卡间的互联,可提供最大双向200GB/s的卡间通信带宽,轻松实现基于多卡互联的AI集群部署和扩展方案。

../../../../../_images/HBM2.png

图 2.5 EHBM2

存储带宽和容量是影响深度学习训练计算能力的重要因素,云燧T10采用业内最高端的HBM存储技术,单芯片提供16GB存储配置,带宽达到512GB/s,并基于深度学习训练计算负载进行了深度效率优化。

3. 规格

3.1. 规格参数

表 3.1.7 规格参数

规格

规格(细分项)

参数

Product SKU

T10

Product PN

EFB-0001002-00

Product MPN

EM0101

PCI Device IDs

Device ID

0x0001

Vendor ID

0x1e36

Sub-Vendor ID

0x1e36

Sub-System ID

0x0001

计算精度支持

FP32/FP16,BF16,INT32/INT16/INT8

SIP核心数量

32

AI算力

FP32算力

20TFLOPS

FP16算力

80TFLOPS

BF16算力

80TFLOPS

内存规格

容量

16GB

带宽

512GB/s

接口规格

PCIe

PCIe Gen4.0 X16 32GB/s

Enflame Smart Link

200GB/s

功耗

最大功耗

225W

散热设计

被动散热

形态

全高全长,双槽位

重量

1.1Kg/1.2Kg (净重/毛重)

3.2. 产品外观

../../../../../_images/T10正面图.png

图 3.2.15 云燧T10板卡正面图 板卡正面外观 下部为接口插槽

../../../../../_images/T10顶面图.png

图 3.2.16 云燧T10板卡顶面图 板卡上端中部为GCU-LARE高速互联接口,专为分布式应用

4. 电气特性

4.1. 电源接口

云燧系列T10加速卡采用12V 8pin供电接口,最大限度与主流AI服务器电源输出配置相兼容,具体供电及电气特性如下:

表 4.1.6 供电及电气特性

电源输入

最大值

滑动平均

PCIe插槽 (12V ± 8%)

66W

1s

5.5A

1s

8-Pin电源连接器

240W

1s

20A

1s

PCIe插槽 (3.3V ± 9%)

10W

1s

3A

1s

总功耗

225W

1s

4.2. 板卡工作环境

表 4.2.4 板卡工作环境

环境参数

工作条件

工作环境温度

0 °C ~ 45 °C

贮存运输温度

-40 °C ~ 75 °C

工作环境湿度

5% ~ 90% 相对湿度

贮存运输湿度

5% ~ 95% 相对湿度

4.3. 散热规范

表 4.3.4 板卡工作环境

参数

单位

总功耗

225

W

关机温度

110

°C

警告温度

100

°C

最大正常工作温度

95

°C

云燧T10系列板卡被动散热支持双向风流,风可以从左往右吹,也可以从右往左吹。

../../../../../_images/双向风流图.png

图 4.3.3 双向风流示意图

风量和散热器风入口温度:

表 4.3.5 最小风量要求

散热器风入口温度(°C)

最小风量(CFM) 12

燧原科技验证

30

17

Y

35

20

Y

40

25

Y

45

30

Y

任何温度 3

17

Y

1

最小风量是假定所有输送的风都会通过云燧T10系列板卡被动散热,系统风量必须大于等于最小风量。

2

在表格中的最小风量和散热器风入口温度数据是一个经过燧原科技验证过的参考值,不是一个绝对的规范。系统设计可以参考这些数据进行系统散热调优。

3

此处的最小风量是指云燧T10系列板卡上电以后所需的最小风量,与系统操作模式和风入口温度无关。