1. 前言

1.1. 声明

本文档提供的信息属于上海燧原科技有限公司和/或其子公司(以下统称“燧原科技”)所有,且燧原科技保留不经通知随时对本文档信息或对任何产品和服务做出修改的权利。本文档所含信息和本文档所引用燧原科技其他信息均“按原样”提供。燧原科技不担保信息、文本、图案、链接或本文档内所含其他项目的准确性或完整性。燧原科技不对本文档所述产品的可销售性、所有权、不侵犯知识产权、准确性、完整性、稳定性或特定用途适用性做任何暗示担保、保证。燧原科技可不经通知随时对本文档或本文档所述产品做出更改,但不承诺更新本文档。

在任何情况下,燧原科技不对因使用或无法使用本文档而导致的任何损害(包括但不限于利润损失、业务中断和信息损失等损害)承担责任。燧原科技不承担因应用或使用本文档所述任何产品或服务而产生的任何责任。

本文档所列的规格参数、性能数据和等级需使用特定芯片或计算机系统或组件来测量。经该等测试,本文档所示结果反映了燧原科技产品的大概性能。系统配置及软硬件版本、环境变量等的任何不同会影响实际性能,产品实际效果与文档描述存在差异的,均属正常现象。燧原科技不担保测试每种产品的所有参数。客户自行承担对产品适合并适用于客户计划的应用以及对应用程序进行必要测试的责任。客户产品设计的脆弱性会影响燧原科技产品的质量和可靠性并导致超出本文档范围的额外或不同的情况和/或要求。

燧原科技和燧原科技的标志是上海燧原科技有限公司申请和/或注册的商标。本文档并未明示或暗示地授予客户任何专利、版权、商标、集成电路布图设计、商业秘密或任何其他燧原科技知识产权的权利或许可。

本文档为版权所有并受全世界版权法律和条约条款的保护。未经燧原科技的事先书面许可,任何人不可以任何方式复制、修改、出版、上传、发布、传输或分发本文档。为免疑义,除了允许客户按照本文档要求使用文档相关信息外,燧原科技不授予其他任何明示或暗示的权利或许可。

燧原科技对本文档享有最终解释权。

1.2. 版本记录

表 1.2.1 版本记录

文档版本

文档日期

文档说明

V1.0

2022年02月24日

初版发布

V1.1

2022年03月31日

增加词汇表及PN说明,更新软件栈图片

V1.2

2022年05月16日

更新软件栈图片,增加词汇表中文说明

V1.3

2022年05月27日

在规格参数中添加核心频率

V1.4

2023年03月23日

增加时钟要求和热插拔说明,更新云燧 i20 加速卡外观结构图和云燧i20斜45°图

V1.5

2023年8月9日

在规格参数中添加尺寸及重量数据

V1.6

2023年10月24日

在规格参数中去掉毛重,增加中英文产品名称

1.3. 词汇表

表 1.3.1 词汇表

术语

描述

PCIe

Peripheral Component Interconnect Express, 快捷外围部件互联标准

DIDT

Delta Current Intensity/Delta Time, 电流变化率

APC

Adaptive Power Control, 自适应功率控制

DVFS

Dynamic Voltage and Frequency Scaling, 动态电压频率调解

BMC

Baseboard Management Controller, 主板管理控制单元

SMBUS

System Management Bus, 系统管理总线

EDSL

Embedded Domain Specific Language,嵌入式特定领域语言

IaaS

Infrastructure as a Service, 基础设施即服务

PN

Part Number, 部件号

HBM

High Bandwidth Memory, 高带宽存储器

邃思(DTU)

邃思(Deep Thinking Unit)

TopsRider

燧原科技驭算软件栈

TopsVirt

燧原科技GCU虚拟化软件

TopsRuntime

燧原科技运行时库

TopsEngine

燧原科技编程模型和编译器的总称

TopsCC

燧原科技编程模型和编译器

TopsFactor

燧原科技下一代编程模型和编译器

TopsOperator

燧原科技基础算子库

TopsGraph

燧原科技图编译器

TopsKit

燧原科技开发者工具包的总称

TopsVisualProfiler

燧原科技可视化性能分析工具

TopsProf

燧原科技命令行性能分析工具

TopsPTI

燧原科技高级自定义分析接口

Tops-X

燧原科技应用开发扩展库的总称

TopsDNN

燧原科技神经网络静态算子库

TopsInference

燧原科技推理加速引擎

TopsModel

燧原科技模型仓库

TopsDL

燧原科技AI应用集成开发平台

TopsInstaller

燧原科技软件栈安装程序

2. 产品概述

2.1. 简介

云燧i20(CloudBlazer i20)是燧原科技基于邃思2.5芯片打造的面向数据中心的第二代人工智能推理加速卡,结合全新升级的驭算软件平台,具有高算力高性能、大带宽低延时、模型覆盖面广、软件生态开放等产品特点,可支持多种人工智能推理场景。

云燧i20的核心邃思2.5芯片基于人工智能领域专用处理器架构设计,在上一代芯片的基础上全面优化计算、存储与数据引擎,提供强劲的全精度人工智能算力、先进的存储方案,广泛支持视觉、语音语义、强化学习等多技术方向的模型推理,属于国内先进水平、具备完全自主知识产权的人工智能推理芯片。

云燧i20全面提升针对人工智能多场景多模型的广泛覆盖和泛化支持能力,结合泛互联网、传统行业和新基建等业务领域的智能化升级需求提供支持,可广泛应用于各类型 人工智能云端推理业务场景,包括但不限于:目标检测、图像分类、人脸识别、OCR 识别、姿态识别、图像分割、图像增强、图像合成、语音识别、语音合成、内容理解、机器翻译、智能客服、智能推荐等,助力产业智能升级。

../../../../../_images/i20加速卡.png

图 2.1.1 云燧i20实物图

2.2. 主要特征

2.2.1. 性能

  • 计算引擎

    • 支持FP32、FP16、BF16、INT8等多种数据精度,提供领先的全精度支持和模型性能

    • 高可编程性,支持矢量、张量等多种计算类型,支持超越函数计算加速

  • 存储引擎

    • 3层存储结构设计,基于深度学习推理计算负载进行了深度效率优化

    • 国内首张支持HBM2E存储方案的推理加速卡,提供业界领先的超大存储带宽

  • 数据引擎

    • 面向张量AI数据流计算加速的数据引擎,支持切分/逆切分、维度变换、拼接、降采样、镜像、常量填充等

    • 支持融合型张量操作

    • 支持数据多地址广播

    • 硬件多重循环指令,降低同步开销

2.2.2. 系统

  • 智能功耗管理

    • 支持基于APC方案的芯片及板卡级功耗实时管理

    • 包含针对功耗检测、DIDT监控、均值/峰值电流检测、温度检测等多重保护机制

    • 提供实时、准确、稳定的功耗与电流控制

    • 提供基于DVFS的动态细粒度调频调压智能系统,根据实时负载提供灵活的性能加速

  • 系统监控管理

    • 支持对温度、电压、功耗等运行指标的实时监测与管理

    • 支持BMC通过SMBUS端口进行带外管理,获取设备状态监控信息

2.2.3. 软件栈

驭算TopsRider是燧原科技自主知识产权的计算及编程平台,通过软硬件协同的架构设计,充分释放云燧i20的性能。全新的驭算2.0软件栈,通过软硬件结合提供极致的性能和优化的编程环境,进一步降低了用户的迁移成本和学习成本。驭算TopsRider适配主流框架,提供工具链支持开发与调优,不断提升用户的使用体验。

  • 全新编程模型,开放编程接口

    • 可以操作标量和多维数组的通用高性能编程接口库

    • 以C++EDSL的方式提供了C++编程接口,帮助广大程序员更快地熟悉并上手

    • 定义了一套执行模型和存储模型,用于简化数据切分和数据流操作

  • 自适应图优化策略及算子泛化

    • 针对深度神经网络的统一模型进行处理,进行算子融合等高层图优化,并提供动态性支持

  • 全新profiling工具

    • 高性能profiling工具准确定位系统的软、硬件性能瓶颈,提高性能分析的效率,通过针对性的性能优化,以最小的代价和成本实现业务场景的极致性能

  • 系统级设备虚拟化

    • 虚拟化实现计算、存储、网络的解耦,为IaaS层资源的灵活编排提供了基础

    • 资源可灵活切分,使算力资源的分配和用户业务算力的需求达到匹配,实现最大化利用率从而降低成本

  • 推理引擎发挥推理场景优势

    • 自研鉴算TopsInference推理引擎,对模型进行编译、加载和推理,结合超高带宽,充分发挥低延时的性能优势,尤其是实时推理业务场景中,实现快速高效的推理、图像识别及处理等工作

    ../../../../../_images/TopsRider2.01.png

    图 2.2.1 驭算TopsRider计算与编程平台

3. 产品规格

3.1. 参数规格

表 3.1.1 规格参数

规格

规格(细分项)

参数

产品名称 Product Name

中文

云燧i20

英文

CloudBlazer i20

产品型号 Product Model

i20

产品部件 Product PN 1

EFB-0041001-00

PCI Device IDs

Device ID

0x8001

Vendor ID

0x1e36

Sub-Vendor ID

0x1e36

Sub-System ID

0x8001

核心频率

1.3GHz

计算精度支持

FP32,FP16,BF16,INT8等

内存规格

容量

16GB

带宽

819GB/s

频率

1.6GHz

位宽

1024*2

接口规格

PCIe

PCIe Gen4 X16

PCIE Base Address

BAR0

16KB, non-prefetchable

BAR1

16MB, non-prefetchable

BAR2/3

16GB, 64bit prefetchable

BAR4/5

64M, 64bit prefetchable

ECC 保护

支持

Secure boot

支持

SMBus Address

0xb4

功耗

最大功耗

150W

散热设计

被动散热

形态

¾长(9.5 inch),单槽位,支持面板全高

尺寸

243.2mm * 111.15mm * 19.8mm

重量 2

658g

1

产品PN不用于销售流程,客户采购所需信息请咨询燧原科技商务人员。

2

此处的重量是指加速卡净重,公差±10%,不包含配件及包装的重量。配件重量请参见配件说明书。

3.2. 产品结构和外观

云燧i20是全高3/4长单槽位的标准PCIe板卡,提供PCIe Gen4 x16高速数据接口,可以适配包括x86、ARM的各种类型服务器,用于数据中心AI云端推理业务。

3.2.1. 加速卡外形尺寸

云燧i20外观如下图所示:

../../../../../_images/i20外观图.png

图 3.2.1 云燧 i20 加速卡外观结构图

../../../../../_images/斜45度图.png

图 3.2.2 云燧i20斜45°图

3.3. 电气特性

云燧i20采用12V PCIe 8pin供电接口,最大限度与主流AI服务器电源输出配置相兼容。

3.3.1. 电气规格

云燧i20具体供电及电气特性如下:

表 3.3.1 供电及电气特性

电源输入

最大值

滑动平均

PCIe插槽 (12V ± 8%)

66W

1s

5.5A

1s

8-Pin 电源连接器

150W

1s

12.5A

1s

PCIe插槽 (3.3V ± 9%)

10W

1s

3A

1s

总功耗

150W

1s

云燧i20 AI推理加速卡的供电电压输入范围要求如下:

表 3.3.2 供电电压特性

电源接口

最小电压

典型电压

最大电压

8-Pin 电源连接器(12V)

11.04V

12V

12.96V

PCIe 金手指接口 (12V)

11.04V

12V

12.96V

PCIe 金手指接口(3.3V)

3.00V

3.30V

3.63V

云燧i20要求的功耗封顶指标如下:

表 3.3.3 功耗峰顶指标

项目

配置

功耗封顶指标

150W

功耗封顶响应时间(最大值)

250ms

云燧i20在5ms,1ms,200us下的峰值电流如下:

表 3.3.4 供电接口峰值电流

电源持续时间

8Pin 12V 接口电流(A)

Pcie 12V 接口电流(A)

5ms

21

5.5

1ms

21

5.5

200us

21

5.5

3.3.2. 8-Pin电源连接器

../../../../../_images/8pin电源连接器示意图与管脚定义.png

图 3.3.1 8 pin电源连接器示意图与管脚定义

Attention

8-pin供电接口与服务器主板对接,由服务器厂商根据具体服务器提供适配的线缆。

3.4. 工作环境和可靠性

表 3.4.1 板卡工作环境和MTBF指标

环境参数

工作条件

工作环境温度

0 °C ~ 45 °C

贮存运输温度

-40 °C ~ 75 °C

工作环境湿度

5% ~ 90% 相对湿度

贮存运输湿度

5% ~ 95% 相对湿度

3.5. 时钟要求

云燧i20遵从标准PCIe标卡协议(PCI Express Card Electromechanical Specification Revision 4.0),整卡只需要提供标准PCIe4.0的时钟,信号质量满足PCIe规范。

3.6. 热插拔

云燧i20不支持通知式热插拔和暴力热插拔。

4. 散热设计

4.1. 总功耗和温控门限

风量和散热器风入口温度:

表 4.1.1 温度门限定义

参数

HBM2E

邃思(DTU)

单位

加速卡功耗

≤150

W

熔断保护温度3

110

105

°C

警告温度4

105

100

°C

最大正常工作温度5

100

95

°C

最佳性能温度范围

0-85

0-87

°C

3

当HBM2E结温大于等于表中温度、或者邃思(DTU)结温大于等于表中温度时,会触发芯片熔断保护机制。

4

当HBM2E结温大于等于表中温度、或者邃思(DTU)结温大于等于表中温度时,芯片的工作频率会即刻降到最低,建议风扇转速调至100%。

5

当HBM2E结温大于等于表中温度、或者邃思(DTU)结温大于等于表中温度时,必然触发芯片降频。

4.2. 进风方向

云燧i20被动散热支持双向风流,风可以从左往右吹,也可以从右往左吹:

../../../../../_images/云燧i20AI推理加速卡散热风向图.png

图 4.2.1 云燧i20散热风向图

4.3. 散热器风阻

云燧i20的风阻曲线如下图所示:

../../../../../_images/云燧i20AI推理加速卡散热器风阻图.png

图 4.3.1 云燧i20散热器风阻图

4.4. 最小风量要求

表 4.4.1 最小风量要求

散热器风入口温度(°C)

最小风量(CFM) 678

燧原科技验证

35

6

Y

40

7

Y

45

8.5

Y

50

11

Y

55

14

Y

6

最小风量是假定所有输送的风都会通过云燧i20被动散热,系统风量必须大于等于最小风量。

7

在表格中的最小风量和散热器风入口温度数据是一个经过燧原科技验证过的参考值,不是一个绝对的规范。系统设计可以参考这些数据进行系统散热调优。

8

此处的最小风量是指云燧i20上电以后所需的最小风量,与系统操作模式和风入口温度无关。

5. 认证

云燧i20已经通过下表所列认证:

表 5.1 认证证书

序号

国家/地区

认证

1

Europe

CE

2

US

FCC

3

Europe

RoHS

4

Europe

REACH