1. 前言¶
1.1. 声明¶
本文档提供的信息属于上海燧原科技有限公司和/或其子公司(以下统称“燧原科技”)所有,且燧原科技保留不经通知随时对本文档信息或对任何产品和服务做出修改的权利。本文档所含信息和本文档所引用燧原科技其他信息均“按原样”提供。燧原科技不担保信息、文本、图案、链接或本文档内所含其他项目的准确性或完整性。燧原科技不对本文档所述产品的可销售性、所有权、不侵犯知识产权、准确性、完整性、稳定性或特定用途适用性做任何暗示担保、保证。燧原科技可不经通知随时对本文档或本文档所述产品做出更改,但不承诺更新本文档。
在任何情况下,燧原科技不对因使用或无法使用本文档而导致的任何损害(包括但不限于利润损失、业务中断和信息损失等损害)承担责任。燧原科技不承担因应用或使用本文档所述任何产品或服务而产生的任何责任。
本文档所列的规格参数、性能数据和等级需使用特定芯片或计算机系统或组件来测量。经该等测试,本文档所示结果反映了燧原科技产品的大概性能。系统配置及软硬件版本、环境变量等的任何不同会影响实际性能,产品实际效果与文档描述存在差异的,均属正常现象。燧原科技不担保测试每种产品的所有参数。客户自行承担对产品适合并适用于客户计划的应用以及对应用程序进行必要测试的责任。客户产品设计的脆弱性会影响燧原科技产品的质量和可靠性并导致超出本文档范围的额外或不同的情况和/或要求。
燧原科技和燧原科技的标志是上海燧原科技有限公司申请和/或注册的商标。本文档并未明示或暗示地授予客户任何专利、版权、商标、集成电路布图设计、商业秘密或任何其他燧原科技知识产权的权利或许可。
本文档为版权所有并受全世界版权法律和条约条款的保护。未经燧原科技的事先书面许可,任何人不可以任何方式复制、修改、出版、上传、发布、传输或分发本文档。为免疑义,除了允许客户按照本文档要求使用文档相关信息外,燧原科技不授予其他任何明示或暗示的权利或许可。
燧原科技对本文档享有最终解释权。
1.2. 版本记录¶
文档版本 |
文档日期 |
文档说明 |
---|---|---|
V1.0 |
2022年02月24日 |
初版发布 |
V1.1 |
2022年03月31日 |
增加词汇表及PN说明,更新软件栈图片 |
V1.2 |
2022年05月16日 |
更新软件栈图片,增加词汇表中文说明 |
V1.3 |
2022年05月27日 |
在规格参数中添加核心频率 |
V1.4 |
2023年03月23日 |
增加时钟要求和热插拔说明,更新云燧 i20 加速卡外观结构图和云燧i20斜45°图 |
V1.5 |
2023年8月9日 |
在规格参数中添加尺寸及重量数据 |
V1.6 |
2023年10月24日 |
在规格参数中去掉毛重,增加中英文产品名称 |
1.3. 词汇表¶
术语 |
描述 |
---|---|
PCIe |
Peripheral Component Interconnect Express, 快捷外围部件互联标准 |
DIDT |
Delta Current Intensity/Delta Time, 电流变化率 |
APC |
Adaptive Power Control, 自适应功率控制 |
DVFS |
Dynamic Voltage and Frequency Scaling, 动态电压频率调解 |
BMC |
Baseboard Management Controller, 主板管理控制单元 |
SMBUS |
System Management Bus, 系统管理总线 |
EDSL |
Embedded Domain Specific Language,嵌入式特定领域语言 |
IaaS |
Infrastructure as a Service, 基础设施即服务 |
PN |
Part Number, 部件号 |
HBM |
High Bandwidth Memory, 高带宽存储器 |
邃思(DTU) |
邃思(Deep Thinking Unit) |
TopsRider |
燧原科技驭算软件栈 |
TopsVirt |
燧原科技GCU虚拟化软件 |
TopsRuntime |
燧原科技运行时库 |
TopsEngine |
燧原科技编程模型和编译器的总称 |
TopsCC |
燧原科技编程模型和编译器 |
TopsFactor |
燧原科技下一代编程模型和编译器 |
TopsOperator |
燧原科技基础算子库 |
TopsGraph |
燧原科技图编译器 |
TopsKit |
燧原科技开发者工具包的总称 |
TopsVisualProfiler |
燧原科技可视化性能分析工具 |
TopsProf |
燧原科技命令行性能分析工具 |
TopsPTI |
燧原科技高级自定义分析接口 |
Tops-X |
燧原科技应用开发扩展库的总称 |
TopsDNN |
燧原科技神经网络静态算子库 |
TopsInference |
燧原科技推理加速引擎 |
TopsModel |
燧原科技模型仓库 |
TopsDL |
燧原科技AI应用集成开发平台 |
TopsInstaller |
燧原科技软件栈安装程序 |
2. 产品概述¶
2.1. 简介¶
云燧i20(CloudBlazer i20)是燧原科技基于邃思2.5芯片打造的面向数据中心的第二代人工智能推理加速卡,结合全新升级的驭算软件平台,具有大带宽低延时、模型覆盖面广、软件生态开放等产品特点,可支持多种人工智能推理场景。
云燧i20的核心邃思2.5芯片基于人工智能领域专用处理器架构设计,在上一代芯片的基础上全面优化计算、存储与数据引擎,提供强劲的全精度人工智能算力、先进的存储方案,广泛支持视觉、语音语义、强化学习等多技术方向的模型推理,属于国内先进水平、具备完全自主知识产权的人工智能推理芯片。
云燧i20全面提升针对人工智能多场景多模型的广泛覆盖和泛化支持能力,结合泛互联网、传统行业和新基建等业务领域的智能化升级需求提供支持,可广泛应用于各类型 人工智能云端推理业务场景,包括但不限于:目标检测、图像分类、OCR 识别、姿态识别、图像分割、图像增强、图像合成、语音识别、语音合成、内容理解、机器翻译、智能客服、智能推荐等,助力产业智能升级。
2.2. 主要特征¶
2.2.1. 性能¶
计算引擎
支持FP32、FP16、BF16、INT8等多种数据精度,提供领先的全精度支持和模型性能
高可编程性,支持矢量、张量等多种计算类型,支持超越函数计算加速
存储引擎
3层存储结构设计,基于深度学习推理计算负载进行了深度效率优化
国内首张支持HBM2E存储方案的推理加速卡,提供业界领先的超大存储带宽
数据引擎
面向张量AI数据流计算加速的数据引擎,支持切分/逆切分、维度变换、拼接、降采样、镜像、常量填充等
支持融合型张量操作
支持数据多地址广播
硬件多重循环指令,降低同步开销
2.2.2. 系统¶
智能功耗管理
支持基于APC方案的芯片及板卡级功耗实时管理
包含针对功耗检测、DIDT管控、均值/峰值电流检测、温度检测等多重保护机制
提供实时、准确、稳定的功耗与电流控制
提供基于DVFS的动态细粒度调频调压智能系统,根据实时负载提供灵活的性能加速
系统监测管理
支持对温度、电压、功耗等运行指标的实时监测与管理
支持BMC通过SMBUS端口进行带外管理,获取设备状态管控信息
2.2.3. 软件栈¶
驭算TopsRider是燧原科技自主知识产权的计算及编程平台,通过软硬件协同的架构设计,充分释放云燧i20的性能。全新的驭算2.0软件栈,通过软硬件结合提供极致的性能和优化的编程环境,进一步降低了用户的迁移成本和学习成本。驭算TopsRider适配主流框架,提供工具链支持开发与调优,不断提升用户的使用体验。
全新编程模型,开放编程接口
可以操作标量和多维数组的通用编程接口库
以C++EDSL的方式提供了C++编程接口,帮助广大程序员更快地熟悉并上手
定义了一套执行模型和存储模型,用于简化数据切分和数据流操作
自适应图优化策略及算子泛化
针对深度神经网络的统一模型进行处理,进行算子融合等高层图优化,并提供动态性支持
全新profiling工具
profiling工具准确定位系统的软、硬件性能瓶颈,提升性能分析的效率,通过针对性的性能优化,以最小的代价和成本实现业务场景的极致性能
系统级设备虚拟化
虚拟化实现计算、存储、网络的解耦,为IaaS层资源的灵活编排提供了基础
资源可灵活切分,使算力资源的分配和用户业务算力的需求达到匹配,实现最大化利用率从而降低成本
推理引擎发挥推理场景优势
自研鉴算TopsInference推理引擎,对模型进行编译、加载和推理,结合超高带宽,充分发挥低延时的性能优势,尤其是实时推理业务场景中,实现快速高效的推理、图像识别及处理等工作
3. 产品规格¶
3.1. 参数规格¶
规格 |
规格(细分项) |
参数 |
---|---|---|
产品名称 Product Name |
中文 |
云燧i20 |
英文 |
CloudBlazer i20 |
|
产品型号 Product Model |
i20 |
|
产品部件 Product PN 1 |
EFB-0041001-00 |
|
PCI Device IDs |
Device ID |
0x8001 |
Vendor ID |
0x1e36 |
|
Sub-Vendor ID |
0x1e36 |
|
Sub-System ID |
0x8001 |
|
核心频率 |
1.3GHz |
|
计算精度支持 |
FP32,FP16,BF16,INT8等 |
|
内存规格 |
容量 |
16GB |
带宽 |
819GB/s |
|
频率 |
1.6GHz |
|
位宽 |
1024*2 |
|
接口规格 |
PCIe |
PCIe Gen4 X16 |
PCIE Base Address |
BAR0 |
16KB, non-prefetchable |
BAR1 |
16MB, non-prefetchable |
|
BAR2/3 |
16GB, 64bit prefetchable |
|
BAR4/5 |
64M, 64bit prefetchable |
|
ECC 保护 |
支持 |
|
Secure boot |
支持 |
|
SMBus Address |
0xb4 |
|
功耗 |
最大功耗 |
150W |
散热设计 |
被动散热 |
|
形态 |
¾长(9.5 inch),单槽位,支持面板全高 |
|
尺寸 |
243.2mm * 111.15mm * 19.8mm |
|
重量 2 |
658g |
3.2. 产品结构和外观¶
云燧i20是全高3/4长单槽位的标准PCIe板卡,提供PCIe Gen4 x16高速数据接口,可以适配包括x86、ARM的各种类型服务器,用于数据中心AI云端推理业务。
3.2.1. 加速卡外形尺寸¶
云燧i20外观如下图所示:
3.3. 电气特性¶
云燧i20采用12V PCIe 8pin供电接口,最大限度与主流AI服务器电源输出配置相兼容。
3.3.1. 电气规格¶
云燧i20具体供电及电气特性如下:
电源输入 |
最大值 |
滑动平均 |
---|---|---|
PCIe插槽 (12V ± 8%) |
66W |
1s |
5.5A |
1s |
|
8-Pin 电源连接器 |
150W |
1s |
12.5A |
1s |
|
PCIe插槽 (3.3V ± 9%) |
10W |
1s |
3A |
1s |
|
总功耗 |
150W |
1s |
云燧i20 AI推理加速卡的供电电压输入范围要求如下:
电源接口 |
最小电压 |
典型电压 |
最大电压 |
---|---|---|---|
8-Pin 电源连接器(12V) |
11.04V |
12V |
12.96V |
PCIe 金手指接口 (12V) |
11.04V |
12V |
12.96V |
PCIe 金手指接口(3.3V) |
3.00V |
3.30V |
3.63V |
云燧i20要求的功耗封顶指标如下:
项目 |
配置 |
---|---|
功耗封顶指标 |
150W |
功耗封顶响应时间(最大值) |
250ms |
云燧i20在5ms,1ms,200us下的峰值电流如下:
电源持续时间 |
8Pin 12V 接口电流(A) |
Pcie 12V 接口电流(A) |
---|---|---|
5ms |
21 |
5.5 |
1ms |
21 |
5.5 |
200us |
21 |
5.5 |
3.3.2. 8-Pin电源连接器¶
Attention
8-pin供电接口与服务器主板对接,由服务器厂商根据具体服务器提供适配的线缆。
3.4. 工作环境和可靠性¶
环境参数 |
工作条件 |
---|---|
工作环境温度 |
0 °C ~ 45 °C |
贮存运输温度 |
-40 °C ~ 75 °C |
工作环境湿度 |
5% ~ 90% 相对湿度 |
贮存运输湿度 |
5% ~ 95% 相对湿度 |
3.5. 时钟要求¶
云燧i20遵从标准PCIe标卡协议(PCI Express Card Electromechanical Specification Revision 4.0),整卡只需要提供标准PCIe4.0的时钟,信号质量满足PCIe规范。
3.6. 热插拔¶
云燧i20不支持通知式热插拔和暴力热插拔。
4. 散热设计¶
4.1. 总功耗和温控门限¶
风量和散热器风入口温度:
参数 |
HBM2E |
邃思(DTU) |
单位 |
---|---|---|---|
加速卡功耗 |
≤150 |
W |
|
熔断保护温度3 |
110 |
105 |
°C |
警告温度4 |
105 |
100 |
°C |
最大正常工作温度5 |
100 |
95 |
°C |
最佳性能温度范围 |
0-85 |
0-87 |
°C |
4.2. 进风方向¶
云燧i20被动散热支持双向风流,风可以从左往右吹,也可以从右往左吹:
4.3. 散热器风阻¶
云燧i20的风阻曲线如下图所示:
4.4. 最小风量要求¶
散热器风入口温度(°C) |
燧原科技验证 |
|
---|---|---|
35 |
6 |
Y |
40 |
7 |
Y |
45 |
8.5 |
Y |
50 |
11 |
Y |
55 |
14 |
Y |
5. 认证¶
云燧i20已经通过下表所列认证:
序号 |
国家/地区 |
认证 |
---|---|---|
1 |
Europe |
CE |
2 |
US |
FCC |
3 |
Europe |
RoHS |
4 |
Europe |
REACH |