Enflame Documents
Version: v3.2.18
集群部署与设备管理
TopsCloud 产品综述
TopsCloud用户手册
1. 版权声明
2. 版本申明
3. 简介
4. 专有名词解释
5. 前置依赖
6. 文档使用说明
6.1. k8s-device-plugin使用说明
6.2. enflame-container-toolkit使用说明
6.3. gcu-operater使用说明
6.4. gcu-exporter使用说明
6.5. gcu-feature-discovery使用说明
6.6. node-feature-discovery使用说明
6.7. 其他组件
7. 二次开发用户使用说明
7.1. 一般用户(内网用户)
7.2. 需要二次开发的外网用户
8. GCU标签自动生成使用说明
8.1. 基础组件
8.2. 基于NFD与GFD的使用方案
9. GCU标签手工生成使用说明
9.1. 如何给节点打上标签
9.2. 为pod配置节点亲和性示例
9.3. 应用示例
10. 常见问题
资源管理
Container Toolkit用户使用手册
1. 版权声明
2. 版本申明
3. 简介
4. 前置依赖
5. container-toolkit安装包
6. 安装container-toolkit
7. 环境变量
7.1. 这个变量支持的值
7.2. GCU挂载用例
8. 配置文件与日志
9. 查看工具版本号
10. 常见问题
K8S Plugin用户使用手册
1. 版权声明
2. 版本申明
3. 简介
4. 前置依赖
5. 主要功能
6. 软件包介绍
7. 部署示例
7.1. 查看版本号
7.2. 配置参数
7.3. 构建镜像
7.4. 配置文件
7.5. 部署k8s-device-plugin
7.6. 申请GCU设备
7.7. 申请VGCU设备
8. 使用CDI模式
8.1. 容器引擎开启CDI模式
8.2. k8s版本<1.28
8.3. k8s版本>=1.28
8.4. 以CDI模式部署k8s-device-plugin
9. 使用NUMA亲和性调度
9.1. 修改kubelet配置
9.2. 验证NUMA亲和性调度
10. 使用Pcie Switch亲和性调度
10.1. 以Pcie Switch Affinity模式部署k8s-device-plugin
10.2. 验证Pcie Switch亲和性调度
11. 使用CPU manager模式
11.1. 以CPU Manager模式部署k8s-device-plugin
11.2. 验证CPU Manager功能
12. 卸载k8s-device-plugin
13. 常见问题
GCUShare用户使用手册
1. 版权声明
2. 版本申明
3. 简介
3.1. 背景
3.2. 前置依赖
3.3. 查看版本号
3.4. GCUShare主要组件
3.5. GCUShare功能概要
3.6. GCUShare Chart说明
4. 安装GCUShare组件
4.1. 制作gcushare组件镜像
4.2. 安装gcushare组件
5. 使用共享GCU
5.1. 场景示例
5.2. 以更细粒度共享GCU
5.3. 查看日志
6. 组件卸载
6.1. gcushare-scheduler-extender卸载
6.2. gcushare-device-plugin卸载
7. 常见问题
GCU Feature Discovery用户使用手册
1. 版权声明
2. 版本申明
3. 简介
4. GFD部署
4.1. 前置依赖
4.2. 安装包说明
4.3. 提供的标签
4.4. 配置与部署NFD
4.5. GFD 配置文件
4.6. 制作GFD组件镜像
4.7. 部署GFD组件
4.8. 检查GFD组件工作
4.9. 卸载GFD组件
5. all-in-one使用示例
5.1. 构建与部署
5.2. 标签使用
6. 常见问题
Node Feature Discovery用户使用手册
1. 版权声明
2. 版本申明
3. 简介
4. 部署示例
4.1. 部署要求
4.2. 制作NFD组件镜像
4.3. 配置yaml文件过滤GFD Labels
4.4. 部署NFD组件
4.5. 检查NFD组件工作
4.6. 卸载NFD组件
5. 常见问题
K8S Driver Manager用户使用手册
1. 版权声明
2. 版本申明
3. 简介
4. 安装包介绍
5. 系统基本设置
6. 使用示例
6.1. 启动k8s-driver-manager镜像
可观测管理
GCU Exporter用户使用手册
1. 版权声明
2. 版本申明
3. 简介
3.1. 安装包介绍
3.2. 前置依赖
4. 查看版本号
5. 端口
6. 指标说明
6.1. enflame_gcu_usage
6.2. enflame_gcu_memory_total_bytes
6.3. enflame_gcu_memory_used_bytes
6.4. enflame_gcu_memory_usage
6.5. enflame_gcu_count
6.6. enflame_gcu_clock
6.7. enflame_gcu_temperatures
6.8. enflame_gcu_power_usage
6.9. enflame_gcu_power_consumption
6.10. enflame_gcu_power_capability
6.11. enflame_gcu_health
6.12. enflame_gcu_ecc_double_bit_error_total_count
6.13. enflame_gcu_ecc_single_bit_error_total_count
6.14. enflame_gcu_pcie_link_width
6.15. enflame_gcu_pcie_max_link_width
6.16. enflame_gcu_cluster_usage
6.17. enflame_gcu_pg_usage(仅限i系列推理卡)
7. 告警与处理
8. 部署
8.1. 裸机部署
8.2. Docker部署
8.3. K8S部署
9. 常见问题
9.1. 关于版本号
GCU Monitor Examples用户使用手册
1. 版权声明
2. 版本申明
3. 简介
4. 应用示例
4.1. gcu-exporter 镜像构建
4.2. k8s部署示例
4.3. docker部署示例
4.4. 通过Prometheus 查看运行指标
4.5. 通过Grafana查看运行指标
4.6. 添加Grafana数据源
4.7. 导入Grafana UI模板文件
5. 注意事项
Node Exporter用户使用手册
1. 版权声明
2. 版本申明
3. 简介
4. 安装包介绍
5. 使用示例
5.1. 容器镜像构建
5.2. 部署
5.3. 卸载
5.4. 查看版本号
5.5. 端口
5.6. Node Exporter指标
6. 常见问题
部署运维
GCU Operator用户使用手册
1. 版权声明
2. 版本申明
3. 背景
4. gcu-operator简介
4.1. gcu-operator是什么
4.2. 如何查看gcu-operator版本
4.3. gcu-operator提供哪些能力
5. 部署示例
5.1. 环境要求
5.2. gcu-operator 发布包
5.3. 构建operator组件镜像
5.4. 构建operator软件栈镜像
5.5. 部署gcu-operator
5.6. 查看资源信息
5.7. 容器引擎的自动重启
6. 功能分析
6.1. CR编排
6.2. CR 详情
7. 常见问题
7.1. 如何查看日志
7.2. 如何卸载gcu-resource和operator
7.3. gcu-operator如何获取gcu软件的镜像
7.4. 卸载的时候可以单独只卸载某个组件吗?
7.5. operator在部署container-toolkit之后如果docker重启了,会影响后续组件的部署流程吗?
8. 常见报错
8.1. 构建driver镜像报错
8.2. 部署gcu-operator时提示未安装驱动文件
9. 附录
9.1. helm3安装示例
9.2. go1.18+安装示例
K8s Installer用户使用手册
1. 版权声明
2. 版本申明
3. 简介
4. 前置准备
4.1. 系统基本设置
4.2. 安装包准备
5. 使用kubeadm-install.sh一键安装单机k8s集群
5.1. 查看可安装的docker版本列表
5.2. 查看可安装的k8s版本列表
5.3. 安装k8s
6. 安装依赖包
7. 使用示例
7.1. 下载并安装sealer
7.2. 已支持的镜像列表
7.3. 创建一个单机K8S集群示例
7.4. 创建一个多机K8S集群示例
7.5. k8s集群安装脚本示例
7.6. 增加节点
7.7. 清理集群
7.8. 其他sealer命令
8. 高级功能 - 自定义K8S镜像参考
8.1. 基于K8S基础版本制作新版本镜像(v1.24.0之前的版本)
8.2. 基于K8S基础版本制作新版本镜像(v1.24.0之后的版本)
8.3. 完成镜像的构建
9. 常见问题
9.1. 使用sealer
9.2. 使用kubeadm-install.sh
二次开发库
GO EFlib用户使用手册
1. 版权声明
2. 版本申明
3. 简介
4. 前置依赖
5. 使用配置
5.1. go.mod配置
5.2. vendor配置
5.3. import导入
5.4. 代码示例
6. 常见问题
合规声明
文档法律声明
燧原软件栈文档中心
»
Search
Please activate JavaScript to enable the search functionality.