1. 前言

1.1. 声明

本文档提供的信息属于上海燧原科技有限公司和/或其子公司(以下统称“燧原科技”)所有,且燧原科技保留不经通知随时对本文档信息或对任何产品和服务做出修改的权利。本文档所含信息和本文档所引用燧原科技其他信息均“按原样”提供。燧原科技不担保信息、文本、图案、链接或本文档内所含其他项目的准确性或完整性。燧原科技不对本文档所述产品的可销售性、所有权、不侵犯知识产权、准确性、完整性、稳定性或特定用途适用性做任何暗示担保、保证。燧原科技可不经通知随时对本文档或本文档所述产品做出更改,但不承诺更新本文档。

在任何情况下,燧原科技不对因使用或无法使用本文档而导致的任何损害(包括但不限于利润损失、业务中断和信息损失等损害)承担责任。燧原科技不承担因应用或使用本文档所述任何产品或服务而产生的任何责任。

本文档所列的规格参数、性能数据和等级需使用特定芯片或计算机系统或组件来测量。经该等测试,本文档所示结果反映了燧原科技产品的大概性能。系统配置及软硬件版本、环境变量等的任何不同会影响实际性能,产品实际效果与文档描述存在差异的,均属正常现象。燧原科技不担保测试每种产品的所有参数。客户自行承担对产品适合并适用于客户计划的应用以及对应用程序进行必要测试的责任。客户产品设计的脆弱性会影响燧原科技产品的质量和可靠性并导致超出本文档范围的额外或不同的情况和/或要求。

燧原科技和燧原科技的标志是上海燧原科技有限公司申请和/或注册的商标。本文档并未明示或暗示地授予客户任何专利、版权、商标、集成电路布图设计、商业秘密或任何其他燧原科技知识产权的权利或许可。

本文档为版权所有并受全世界版权法律和条约条款的保护。未经燧原科技的事先书面许可,任何人不可以任何方式复制、修改、出版、上传、发布、传输或分发本文档。为免疑义,除了允许客户按照本文档要求使用文档相关信息外,燧原科技不授予其他任何明示或暗示的权利或许可。

燧原科技对本文档享有最终解释权。

1.2. 版本记录

表 1.2.6 版本记录

文档版本

文档日期

文档说明

V1.0

2020-11-05

初版发布

V1.1

2021-03-25

修正一些描述错误,如更改I10为i10

V1.2

2022-04-01

修改MID全称

2. 简介

云燧i10(CloudBlazer i10)是基于燧原科技科技邃思系列AI处理器芯片打造的专为人工智能应用开发的云端AI推理加速卡,基于创新自研的高性能计算引擎和灵活高效的数据引擎IP核心,由12nm先进工艺打造,采用2.5D立体封装和高带宽HBM2存储子系统。云燧i10提供覆盖软硬件的全栈式人工智能算力系统解决方案,具有高算力、多精度、高能效性、高可靠性、高可编程性等产品特点。

云燧i10及邃思系列芯片专为AI应用设计,支持计算机视觉、语音识别与合成、自然语言处理,机器学习、知识图谱等。可广泛应用于各类型AI云端推理业务场景,包括但不限于:物体分类、物体检测、图像分割、OCR识别、内容理解、内容审核、语义理解、智能客服、智能推荐、语音识别、语音合成、图像增强、监督学习化学习、智能翻译等多类型人工智能场景,助力产业智能升级。

综合性能优异:单芯片集成了32个自研计算核心和业界领先的2代HBM2存储,可以有效支撑高密度的云端AI运算要求的超高性能及巨大的存储带宽与容量等需求。

领先的系统接口:率先支持PCIe Gen4接口协议,提供业界最先进的与CPU的数据吞吐,有效解决数据搬移的系统瓶颈。

完整的软件平台:通过驭算平台一站式支持AI推理,提供完整的开发软件栈,包括系统软件、算子算法函数库、SDK软件层、工具链等,支持完整和高效的应用开发。

支持主流框架和模型:支持TensorFlow、PyTorch等开源框架与模型格式。支持CNN、RNN、Transformer等多类型的AI算法模型。迁移成本较低,能直接对接TensorFlow输出的推理pb文件与ONNX推理预训练模型。

赋能定制化开发:开放底层算子定制开发能力,提供高效工具和手段,赋能客户开发差异化的解决方案,提高综合竞争力。

2.1. 主要特征

性能

  • AI算力:核心计算引擎提供800MHz到1.1GHz的运行时钟,提供高达17.6TFLOPS的单精度浮点算力(FP32)、70.4TFLOPS的半精度浮点算力(FP16、BF16)、70.4TOPS的定点性能(INT8)等多精度算力支持。

  • 本地存储:集成2颗HBM2存储颗粒,提供512GB/s的高存储带宽,及16GB的本地存储容量。

连接

  • 高速IO:集成PCIe Gen4 x16端口,提供64GB/s高带宽的双向数据端口。

功能

  • Multi-Context:提供高达4进程的多任务流工作方式,可支持相同算法模型多进程业务模式,或不同算法模型多进程业务模式。

  • 设备虚拟化(MID,Multi-Instance Device)

  • 可支持KVM, Xen等系统虚拟化平台,支持VFIO/MDEV开源生态,支持Docker部署。

    • 双模式支持:Pass-through透传模式,多用户模式。

    • 多用户支持:支持1/2/4多用户模式。最大4个设备实例(每个实例可部署不同的业务、负载),资源独享(计算、存储),多用户间安全隔离。

系统

  • 智能功耗管理:高级系统特征(APC,Adaptive Power Control),支持基于芯片及板卡级功耗实时管理。

    • 包含针对功耗检测、DIDT监控、均值/峰值电流检测、温度检测等多重保护机制

    • 提供实时、准确、稳定的功耗与电流控制。

    • 提供基于DVFS的动态细粒度调频调压智能系统,根据实时负载提供灵活的性能加速。

    • 提供数据中心服务器级别高可靠性,高稳定性的同时,提供功耗规格下极致的硬件性能。

  • 智能系统管理:通过自研动态电源管理算法,提供温度、功耗、电流等运行指标的实时监测与管理,并提供可编程的系统接口支持智能管理。

安全

  • 可靠性引擎:支持安全启动和备份,支持RAS、ECC等特征,支持数据校验与纠错功能。提供BMC运维管理功能,支持系统级带内带外信息采集,状态监控,故障自动化管理。

软件栈

  • Model Zoo:提供多类型的model zoo,支持TensorFlow和ONNX双框架场景,方便用户高效开发业务模型。

  • 推理引擎:推出功能强大的推理引擎鉴算(TopsInference),可支持统一的模型管理和转换,将AI框架原始模型高效转化为驭算平台统一执行模型并提供高性能算法实现,提供模型编译、加载与推理部署执行。

  • 图优化引擎:推出优异的图优化引擎络算(TopsNeuro),可针对如深度神经网络等算法模型提供统一的模型处理,进行算子融合等高层图优化,提供动态性支持。

  • 算子库:推出全场景支持的算子库擎算(TopsOperator),支持500+算子,80+个原子算子提供原生汇编实现与优化;支持融合算子,定制算子,超越函数算子;支持FP32/FP16/BF16数据精度和多种数据layout。

  • 编程模型:推出面向深度学习计算的编程模型拟算(TopsPrimo),提供自动化的算子与算法开发能力,最大化AI算力利用率。提供易用统一的编程接口,最大化开发效率。

  • 工具链:推出完整的开发工具链探算(TopsKit),提供性能分析和可视化工具,提供模型可视化工具,提供基于GDB的GCU程序调试器。

3. 规格

3.1. 规格参数

表 3.1.6 规格参数

规格

规格(细分项)

参数

Product SKU

i10

P/N

EFB-0001800-00

MPN

EFM-0001800-00

PCI Device IDs

Device ID

0x8011

Vendor ID

0x1e36

Sub-Vendor ID

0x1e36

Sub-System ID

0x8011

计算精度支持

FP32,FP16,BF16,INT8等

AI算力

FP32算力

17.6TFLOPS

FP16算力

70.4TFLOPS

BF16算力

70.4TFLOPS

INT8算力

70.4TOPS

内存规格

容量

16GB

带宽

512GB/s

接口规格

PCIe

PCIe Gen4 X16

功耗

最大功耗

150W

散热设计

被动散热

形态

全高全长,单槽位

重量

0.65Kg/0.75Kg (净重/毛重)

3.2. 产品外观

云燧 i10 AI 推理加速卡是全高全长单槽位的标准 PCIe 板卡,提供 PCIe Gen4 x16 高速数据接口,可以适配包括 x86、Arm 的各种类型服务器,用于数据中心 AI 云端推理业务。云燧 i10 外观如下图所示:

../../../../../_images/I10正面外观.png

图 3.2.10 云燧i10 AI推理加速卡正面外观

../../../../../_images/I10背面外观.png

图 3.2.11 云燧i10 AI推理加速卡背面外观

../../../../../_images/I10顶面外观.png

图 3.2.12 云燧i10 AI推理加速卡顶面外观

../../../../../_images/I10斜45°.png

图 3.2.13 云燧i10 AI推理加速卡 斜45°图

../../../../../_images/I10侧面接口.png

图 3.2.14 云燧i10 AI推理加速卡 侧面接口图

4. 电气特性

4.1. 电源接口

云燧i10 AI推理加速卡采用12V 8pin供电接口,最大限度与主流AI服务器电源输出配置相兼容,具体供电及电气特性如下:

表 4.1.5 供电及电气特性

电源输入

最大值

滑动平均

PCIe插槽 (12V ± 8%)

66W

1s

5.5A

1s

8-Pin电源连接器

120W

1s

10A

1s

PCIe插槽 (3.3V ± 9%)

10W

1s

3A

1s

总功耗

150W

1s

4.2. 板卡工作环境

表 4.2.3 板卡工作环境

环境参数

工作条件

工作环境温度

0 °C ~ 45 °C

贮存运输温度

-40 °C ~ 75 °C

工作环境湿度

5% ~ 90% 相对湿度

贮存运输湿度

5% ~ 95% 相对湿度

4.3. 散热规范

云燧i10 AI推理加速卡被动散热支持双向风流,风可以从左往右吹,也可以从右往左吹,风量和散热器风入口温度:

表 4.3.2 散热规范

参数

单位

总功耗

150

W

关机温度

110

°C

警告温度

100

°C

最大正常工作温度

95

°C

../../../../../_images/I10散热风向.png

图 4.3.2 云燧i10 AI推理加速卡 散热风向图

表 4.3.3 最小风量要求

散热器风入口温度(°C)

最小风量(CFM) 1,2,3

燧原科技验证

35

6

Y

40

7

Y

45

8

Y

50

10

Y

55

14

Y

1

最小风量是假定所有输送的风都会通过云燧i10 AI推理加速卡被动散热,系统风量必须大于等于最小风量。

2

在表格中的最小风量和散热器风入口温度数据是一个经过燧原科技验证过的参考值,不是一个绝对的规范。系统设计可以参考这些数据进行系统散热调优。

3

此处的最小风量是指云燧i10 AI推理加速卡上电以后所需的最小风量,与系统操作模式和风入口温度无关。