1.1 新功能

  • KMD驱动模块化,提升分布式运算性能。具体驱动安装请参考软件安装手册
  • T10环境变量清理
  • Ubuntu16.04 dockerfile更新,python2和python3共享同一个dockerfile

1.2 版本发布信息

软件版本TopsRider.1.17.781
T10 SSM FW版本1.47.1
T10(QSFP-DD)SSM FW 版本3.49.2

1.3 支持的硬件

PN产品名称
EFB_001002_00 云燧T10,云计算加速训练卡
EFB_0007000_00 云燧T10(QSFP-DD),云计算加速训练卡

1.4 支持的OS类型

支持的OS 类型内核版本
Ubuntu 16.04.6 Desktop LTS4.15.0
Ubuntu 18.04.4 Server LTS4.15.0
Ubuntu 20.04.1 Desktop LTS5.8.0
TLinux4.14.105

1.5  已支持的功能

  • 在可视化性能分析工具中(DTU-VP),支持利用Thread或者Name来过滤Timeline上的数据,提高数据分析工具的易用性
  • 提升在Horovod框架上的帧数处理能力,保持帧处理能力和非Horovod框架上的帧数处理能力一致性
  • 实现在单个服务器内,灵活指定板卡去运行业务,实现组网上的灵活配置
  • 在4 Clusters 上支持运行Resnet50 v1.5数据集的模型训练
  • 在确保tensorflow公开源网络稳定连接的前提下,基于Tensorflow1.14源码,自动将源码集成到训练栈的软件中,进行模型运算
  • 统一燧原训练栈的log输出级别,默认为Info级别
  • 优化KMD的安装步骤
  • 支持在Ubuntu16.04.6,Ubuntu18.04.4,以及Ubuntu20.04.1上运行训练运算
  • 优化auto4C的功能,Auto4C功能可以通过环境变量ENFLAME_AUTO4C=true 和 ENFLAME_AUTO4C_ALLREDUCE_CFG=”1″ 来配置
  • 当KMD与SSM版本不匹配时, 驱动将会退出安装
  • dtupp文件名改变:从 dtupp_versionnumber_x86_64.deb变成dtupp_versionnumber_amd64.deb
  • horovod版本从0.18.1升级到0.19.1

1.6 解决问题列表

  • 在安装驱动时,进行SSM firmware的更新过程中,firmware的版本显示错误,FW版本2.45.0被错误的显示成9.25.1

Tags: