1. 前言

1.1. 声明

本文档提供的信息属于上海燧原科技有限公司和/或其子公司(以下统称“燧原科技”)所有,且燧原科技保留不经通知随时对本文档信息或对任何产品和服务做出修改的权利。本文档所含信息和本文档所引用燧原科技其他信息均“按原样”提供。燧原科技不担保信息、文本、图案、链接或本文档内所含其他项目的准确性或完整性。燧原科技不对本文档所述产品的可销售性、所有权、不侵犯知识产权、准确性、完整性、稳定性或特定用途适用性做任何暗示担保、保证。燧原科技可不经通知随时对本文档或本文档所述产品做出更改,但不承诺更新本文档。

在任何情况下,燧原科技不对因使用或无法使用本文档而导致的任何损害(包括但不限于利润损失、业务中断和信息损失等损害)承担责任。燧原科技不承担因应用或使用本文档所述任何产品或服务而产生的任何责任。

本文档所列的规格参数、性能数据和等级需使用特定芯片或计算机系统或组件来测量。经该等测试,本文档所示结果反映了燧原科技产品的大概性能。系统配置及软硬件版本、环境变量等的任何不同会影响实际性能,产品实际效果与文档描述存在差异的,均属正常现象。燧原科技不担保测试每种产品的所有参数。客户自行承担对产品适合并适用于客户计划的应用以及对应用程序进行必要测试的责任。客户产品设计的脆弱性会影响燧原科技产品的质量和可靠性并导致超出本文档范围的额外或不同的情况和/或要求。

燧原科技和燧原科技的标志是上海燧原科技有限公司申请和/或注册的商标。本文档并未明示或暗示地授予客户任何专利、版权、商标、集成电路布图设计、商业秘密或任何其他燧原科技知识产权的权利或许可。

本文档为版权所有并受全世界版权法律和条约条款的保护。未经燧原科技的事先书面许可,任何人不可以任何方式复制、修改、出版、上传、发布、传输或分发本文档。为免疑义,除了允许客户按照本文档要求使用文档相关信息外,燧原科技不授予其他任何明示或暗示的权利或许可。

燧原科技对本文档享有最终解释权。

1.2. 版本记录

表 1.2.2 版本记录

文档版本

文档日期

文档说明

V1.0

2021年12月8日

正式发布

V1.1

2022年3月25日

添加“智能功耗管理”特点

更新软件架构图

V1.2

2022年4月1日

添加“PN”注意事项

修改部分术语描述

添加散热器风阻图

V1.3

2022年5月6日

删减规格参数信息

V1.4

2022年5月16日

更新软件架构图,增加词汇表中文说明

V1.5

2022年5月27日

在规格参数中添加核心频率

V1.6

2023年3月23日

增加时钟要求和热插拔说明,更新云燧T20加速卡外观结构图

V1.7

2023年8月9日

在规格参数中添加尺寸及重量数据

V1.8

2023年10月24日

在规格参数中去掉毛重,增加中英文产品名称

1.3. 词汇表

表 1.3.2 词汇表

术语

描述

GCU

General Compute Unit, 燧原科技通用计算单元

GCU-CARE

General Compute Unit - Compute All Round Engine, 燧原科技计算引擎

GCU-LARE

General Compute Unit - Link All Round Engine, 燧原科技互联引擎

PCIe

Peripheral Component Interconnect Express, 快捷外围部件互联标准

DIDT

Delta Current Intensity/Delta Time, 电流变化率

APC

Adaptive Power Control, 自适应功率控制

DVFS

Dynamic Voltage and Frequency Scaling, 动态电压频率调解

AMC

Accelerator Management Controller, 加速卡管理控制单元

BMC

Baseboard Management Controller, 主板管理控制单元

SMBUS

System Management Bus, 系统管理总线

EDSL

Embedded Domain Specific Language,嵌入式特定领域语言

IaaS

Infrastructure as a Service, 基础设施即服务

ECCL

Enflame Collective Communications Library, 燧原科技多卡集合通讯库

RDMA

Remote Direct Memory Access, 远程直接数据存取

PN

Part Number, 部件号

TDP

Thermal Design Power, 散热设计功耗

HBM

High Bandwidth Memory, 高带宽存储器

TopsRider

燧原科技驭算软件栈

TopsVirt

燧原科技GCU虚拟化软件

TopsRuntime

燧原科技运行时库

TopsEngine

燧原科技编程模型和编译器的总称

TopsCC

燧原科技编程模型和编译器

TopsFactor

燧原科技下一代编程模型和编译器

TopsOperator

燧原科技基础算子库

TopsGraph

燧原科技图编译器

TopsKit

燧原科技开发者工具包的总称

TopsVisualProfiler

燧原科技可视化性能分析工具

TopsProf

燧原科技命令行性能分析工具

TopsPTI

燧原科技高级自定义分析接口

Tops-X

燧原科技应用开发扩展库的总称

TopsDNN

燧原科技神经网络静态算子库

TopsInference

燧原科技推理加速引擎

TopsModel

燧原科技模型仓库

TopsDL

燧原科技AI应用集成开发平台

TopsInstaller

燧原科技软件栈安装程序

2. 简介

云燧T20(CloudBlazer T20)是燧原科技基于邃思2.0芯片打造的面向数据中心的第二代人工智能训练加速卡,结合全新升级的驭算软件平台,具有模型覆盖面广、性能强、软件生态开放、灵活扩展等产品特点,可支持多种人工智能训练场景,提供业界领先的人工智能算力集群方案。

云燧T20的核心邃思2.0芯片是国内领先且具有自主知识产权的人工智能训练芯片,在上一代1.0芯片的基础上全面优化了计算、存储与数据引擎,提供强劲的全精度人工智能算力、先进的存储方案、灵活的可扩展性。

云燧T20训练加速卡全面提升了针对人工智能多场景多模型的广泛覆盖和泛化支持能力,结合泛互联网、传统行业和新基建等业务领域的智能化升级需求提供支持,作为算力基础设施和开发算法模型的生产力工具,提供对视觉检测跟踪分类、语音识别与合成、自然语言处理、强化学习等多种场景的广泛支持。

../../../../../_images/T20加速卡.png

图 2.1 云燧T20加速卡实物图

2.1. 主要特征

性能

  • 计算引擎

    • 支持FP32、FP16、BF16、INT8等多种数据精度,提供领先的单精度浮点性能

    • 高可编程性,支持矢量、张量等多种计算类型,支持超越函数计算加速

  • 存储引擎

    • 三层存储结构设计,基于深度学习训练计算负载进行了深度效率优化

    • 国内首张支持HBM2E存储方案的训练加速卡,提供业界领先的存储容量和存储带宽

  • 数据引擎

    • 面向张量AI数据流计算加速的数据引擎,支持切分/逆切分、维度变换、拼接、降采样、镜像、常量填充等

    • 支持融合型张量操作

    • 支持数据多地址广播

    • 硬件多重循环指令,降低同步开销

扩展

  • 高效支持算力扩展

    • 提供独立的高速互联接口,单卡支持6路GCU-LARE,共提供300GB/s的双向传输带宽

    • 支持基于PCIe接口、GCU-LARE接口的节点内P2P互联

    • 支持基于网卡、GCU-LARE接口的节点间互联,可实现千卡以上级别规模的分布式集群方案

系统

  • 智能功耗管理

    • 支持基于APC方案的芯片及板卡级功耗实时管理

    • 包含针对功耗检测、DIDT监控、均值/峰值电流检测、温度检测等多重保护机制

    • 提供实时、准确、稳定的功耗与电流控制

    • 提供基于DVFS的动态细粒度调频调压智能系统,根据实时负载提供灵活的性能加速

    • 驱动加载后,可根据GCU负载判断自动进入低功耗模式(runtime-sleep),大幅降低板卡待机功耗

  • 系统监控管理

    • 支持对温度、电压、功耗等运行指标的实时监测与管理

    • 支持BMC通过SMBUS端口进行带外管理,监控设备状态信息

    • 提供独立的板级加速卡管理控制(AMC)模块,与片上系统互为双活设计

软件栈

驭算TopsRider是燧原科技自主知识产权的计算及编程平台,通过软硬件协同的架构设计,充分释放T20的性能。全新的驭算2.0软件栈,通过软硬件结合提供极致的性能和优化的编程环境,进一步降低了用户的迁移成本和学习成本。驭算TopsRider适配主流框架,提供工具链支持开发与调优,不断提升用户的使用体验。

  • 全新编程模型,开放编程接口

    • 可以操作标量和多维数组的通用高性能编程接口库

    • 以C++ EDSL的方式提供了C++编程接口,帮助用户更快地熟悉并上手

    • 定义了一套执行模型和存储模型,用于简化数据切分和数据流操作

  • 自适应图优化策略及算子泛化

    • 针对深度神经网络的统一模型进行处理,进行算子融合等高层图优化,并提供动态性支持

  • 全新profiling工具

    • 高性能profiling工具准确定位系统的软、硬件性能瓶颈,提高性能分析的效率,通过针对性的性能优化,以最小的代价和成本实现业务场景的极致性能

  • 系统级设备虚拟化

    • 虚拟化实现计算、存储、网络的解耦,为IaaS层资源的灵活编排提供了基础

    • 资源可灵活切分,使算力资源的分配和用户业务算力的需求达到匹配,实现最大化利用率从而降低成本

  • 高加速比分布式训练能力

    • 云燧集群通信库ECCL 2.0添加了RDMA peerdirect特性的支持,以达到节约RDMA网卡成本和RDMA多租户隔离的双重目的

    • 在拓扑算法上,ECCL 2.0对2D-Mesh pro进行了升级以更好地支持资源弹性分配

    ../../../../../_images/TopsRider2.0.png

    图 2.1.2 驭算TopsRider软件架构

3. 规格

3.1. 规格参数

表 3.1.2 规格参数

规格

规格(细分项)

参数

产品名称 Product Name

中文

云燧T20

英文

CloudBlazer T20

产品型号 Product Model

T20

产品部件号 Product PN 1

EFB-0021001-00

PCI Device IDs

Vendor ID

0x1e36

Device ID

0x0021

Sub-Vendor ID

0x1e36

Sub-System ID

0x0021

核心频率

1.3GHz

计算精度支持

FP32,BF16,FP16,INT8

GCU-CARE核心数量

24

内存规格

容量

32GB

带宽

1.6TB/s

接口规格

PCIe

PCIe 4.0x16

GCU-LARE

300 GB/s

功耗

TDP

300 W

散热设计

被动散热

尺寸

268.6mm * 111.15mm * 38.1mm

重量 2

1.1Kg

形态

全高全长,双槽位

1

产品PN不用于销售流程,客户采购所需信息请咨询燧原科技商务人员。

2

此处的重量是指加速卡净重,公差±10%,不包含配件及包装的重量。配件重量请参见配件说明书。







3.2. 外观

../../../../../_images/T20外观图.png

图 3.2.3 云燧T20加速卡外观结构图

4. 电气特性

4.1. 电源接口

云燧T20系列加速卡采用12V 8pin供电接口,最大限度与主流AI服务器电源输出配置相兼容,电源接口Pin脚定义图如下:

../../../../../_images/T20_12V电源接口管脚定义.png

图 4.1.1 云燧T20加速卡12V电源接口管脚定义图

电源接口具体供电及电气特性如下:

表 4.1.2 供电及电气特性

环境参数

功率最大值

电流最大值

滑动平均

PCIe插槽 (12V ± 8%)

66W

5.5A

1s

8-Pin电源连接器

240W

20A

1s

PCIe插槽 (3.3V ± 9%)

10W

3A

1s

总功耗

≤300W

1s

云燧T20加速卡在5ms、1ms、200us下的峰值电流如下:

表 4.1.3 供电接口峰值电流

电流持续时间

8Pin 12V接口电流(A)

PCIe 12V接口电流(A)

5ms

35

5.5

1ms

35

5.5

200us

35

5.5

4.2. 加速卡工作环境

表 4.2.1 加速卡工作环境参数

环境参数

工作条件

工作环境温度

0 °C ~ 45 °C

贮存运输温度

-40 °C ~ 75 °C

工作环境湿度

5% ~ 90% 相对湿度

贮存运输湿度

5% ~ 95% 相对湿度

4.3. 时钟要求

云燧T20遵从标准PCIe标卡协议(PCI Express Card Electromechanical Specification Revision 4.0),整卡只需要提供标准PCIe4.0的时钟,信号质量满足PCIe规范。

4.4. 热插拔

云燧T20不支持通知式热插拔和暴力热插拔。

4.5. 散热要求

表 4.5.1 散热要求

参数

HBM2E

邃思(DTU)

单位

加速卡功耗

≤300

W

熔断保护温度 3

110

105

°C

警告温度 4

105

100

°C

最大正常工作温度 5

100

95

°C

最佳性能温度范围

0-85

0-93

°C

3

当HBM2E结温大于等于表中温度、或者邃思(DTU)结温大于等于表中温度时,会触发芯片熔断保护机制。

4

当HBM2E结温大于等于表中温度、或者邃思(DTU)结温大于等于表中温度时,芯片的工作频率会降到最低,建议风扇转速调至100%。

5

当HBM2E结温大于等于表中温度、或者邃思(DTU)结温大于等于表中温度时,将触发芯片降频。

云燧T20系列加速卡被动散热支持双向风流,风可以从左往右吹,也可以从右往左吹。

../../../../../_images/T20双向风流.png

图 4.5.1 云燧T20加速卡双向风流示意图

风阻曲线如下图所示:

../../../../../_images/散热器风阻图.png

图 4.5.2 云燧T20加速卡风阻曲线


风量和散热器入风口温度:

表 4.5.2 散热器入风口温度

散热器入风口温度(°C)

最小风量(CFM) 67

燧原科技验证

30

15

Y

35

17

Y

40

20

Y

45

25

Y

任何温度 8

15

Y

6

最小风量是假定所有输送的风都会通过云燧T20系列加速卡被动散热,系统风量须大于等于最小风量。

7

在表格中的最小风量和散热器入风口温度数据是一个经过燧原科技验证过的参考值,不是一个绝对的规范。系统设计可以参考这些数据进行系统散热调优。

8

此处的最小风量是指云燧T20系列加速卡上电以后所需的最小风量,与系统操作模式和入风口温度无关。