1.1 新功能
- KMD驱动模块化,提升分布式运算性能。具体驱动安装请参考软件安装手册
- T10环境变量清理
- Ubuntu16.04 dockerfile更新,python2和python3共享同一个dockerfile
1.2 版本发布信息
软件版本 | TopsRider.1.17.781 |
T10 SSM FW版本 | 1.47.1 |
T10(QSFP-DD)SSM FW 版本 | 3.49.2 |
1.3 支持的硬件
PN | 产品名称 |
EFB_001002_00 | 云燧T10,云计算加速训练卡 |
EFB_0007000_00 | 云燧T10(QSFP-DD),云计算加速训练卡 |
1.4 支持的OS类型
支持的OS 类型 | 内核版本 |
Ubuntu 16.04.6 Desktop LTS | 4.15.0 |
Ubuntu 18.04.4 Server LTS | 4.15.0 |
Ubuntu 20.04.1 Desktop LTS | 5.8.0 |
TLinux | 4.14.105 |
1.5 已支持的功能
- 在可视化性能分析工具中(DTU-VP),支持利用Thread或者Name来过滤Timeline上的数据,提高数据分析工具的易用性
- 提升在Horovod框架上的帧数处理能力,保持帧处理能力和非Horovod框架上的帧数处理能力一致性
- 实现在单个服务器内,灵活指定板卡去运行业务,实现组网上的灵活配置
- 在4 Clusters 上支持运行Resnet50 v1.5数据集的模型训练
- 在确保tensorflow公开源网络稳定连接的前提下,基于Tensorflow1.14源码,自动将源码集成到训练栈的软件中,进行模型运算
- 统一燧原训练栈的log输出级别,默认为Info级别
- 优化KMD的安装步骤
- 支持在Ubuntu16.04.6,Ubuntu18.04.4,以及Ubuntu20.04.1上运行训练运算
- 优化auto4C的功能,Auto4C功能可以通过环境变量ENFLAME_AUTO4C=true 和 ENFLAME_AUTO4C_ALLREDUCE_CFG=”1″ 来配置
- 当KMD与SSM版本不匹配时, 驱动将会退出安装
- dtupp文件名改变:从 dtupp_versionnumber_x86_64.deb变成dtupp_versionnumber_amd64.deb
- horovod版本从0.18.1升级到0.19.1
1.6 解决问题列表
- 在安装驱动时,进行SSM firmware的更新过程中,firmware的版本显示错误,FW版本2.45.0被错误的显示成9.25.1