Logo
Enflame Documents
Version:   v3.4.9

集群部署与设备管理

  • TopsCloud 产品综述
    • TopsCloud用户手册
      • 1. 版权声明
      • 2. 版本申明
      • 3. 简介
      • 4. 专有名词解释
      • 5. 前置依赖
      • 6. 平台以及OS支持说明
      • 7. 文档使用说明
        • 7.1. k8s-device-plugin使用说明
        • 7.2. enflame-container-toolkit使用说明
        • 7.3. gcu-operater使用说明
        • 7.4. gcu-exporter使用说明
        • 7.5. gcushare使用说明
        • 7.6. gcu-feature-discovery使用说明
        • 7.7. node-feature-discovery使用说明
        • 7.8. node-problem-detector使用说明
        • 7.9. 其他组件
      • 8. 二次开发使用说明
      • 9. containerd配置使用说明
        • 9.1. cgroup driver配置
        • 9.2. cgroup driver配置的一致性
        • 9.3. cgroup v1 和cgroup v2
        • 9.4. 其他不支持systemd的情况
        • 9.5. containerd镜像构建
      • 10. GCU标签自动生成使用说明
        • 10.1. 基础组件
        • 10.2. 基于NFD与GFD的使用方案
      • 11. GCU标签手工生成使用说明
        • 11.1. 如何给节点打上标签
        • 11.2. 为pod配置节点亲和性示例
        • 11.3. 应用示例
      • 12. 常见问题
  • 资源管理
    • Container Toolkit用户使用手册
      • 1. 版权声明
      • 2. 版本申明
      • 3. 简介
      • 4. 前置依赖
      • 5. 安装包
      • 6. 安装说明
        • 6.1. enflame-container-toolkit.run
        • 6.2. gen_config.sh
        • 6.3. 安装和卸载脚本
      • 7. 使用说明
        • 7.1. 环境变量
        • 7.2. 运行时日志
        • 7.3. 查看工具版本号
      • 8. 常见问题
    • K8S Plugin用户使用手册
      • 1. 版权声明
      • 2. 版本申明
      • 3. 简介
      • 4. 前置依赖
      • 5. 主要功能
      • 6. 软件包介绍
      • 7. 部署示例
        • 7.1. 查看版本号
        • 7.2. 配置参数
        • 7.3. 构建镜像
        • 7.4. 配置文件
        • 7.5. 部署k8s-device-plugin
        • 7.6. 申请GCU设备
        • 7.7. 申请VGCU设备
      • 8. 使用CDI模式
        • 8.1. 容器引擎开启CDI模式
        • 8.2. k8s版本<1.28
        • 8.3. k8s版本>=1.28
        • 8.4. 以CDI模式部署k8s-device-plugin
      • 9. 使用NUMA亲和性调度
        • 9.1. 修改kubelet配置
        • 9.2. 验证NUMA亲和性调度
      • 10. 使用Pcie Switch亲和性调度
        • 10.1. 以Pcie Switch Affinity模式部署k8s-device-plugin
        • 10.2. 验证Pcie Switch亲和性调度
      • 11. 使用CPU manager模式
        • 11.1. 以CPU Manager模式部署k8s-device-plugin
        • 11.2. 验证CPU Manager功能
      • 12. 卸载k8s-device-plugin
      • 13. 常见问题
    • GCUShare用户使用手册
      • 1. 版权声明
      • 2. 版本申明
      • 3. 简介
        • 3.1. 背景
        • 3.2. 查看版本号
        • 3.3. GCUShare主要组件
        • 3.4. GCUShare功能概要
        • 3.5. GCUShare Chart说明
      • 4. 安装GCUShare组件
        • 4.1. 制作gcushare组件镜像
        • 4.2. 安装gcushare组件
      • 5. 使用共享GCU
        • 5.1. 场景示例
        • 5.2. 修改GCU的共享切片数
        • 5.3. 关闭资源隔离
        • 5.4. 查看日志
      • 6. 组件卸载
        • 6.1. gcushare-scheduler-plugin卸载
        • 6.2. gcushare-device-plugin卸载
      • 7. 常见问题
    • GCU Feature Discovery用户使用手册
      • 1. 版权声明
      • 2. 版本申明
      • 3. 简介
      • 4. GFD部署
        • 4.1. 前置依赖
        • 4.2. 安装包说明
        • 4.3. 提供的标签
        • 4.4. 配置与部署NFD
        • 4.5. GFD 配置文件
        • 4.6. 制作GFD组件镜像
        • 4.7. 部署GFD组件
        • 4.8. 检查GFD组件工作
        • 4.9. 卸载GFD组件
      • 5. all-in-one使用示例
        • 5.1. 构建与部署
        • 5.2. 标签使用
      • 6. 常见问题
    • Node Feature Discovery用户使用手册
      • 1. 版权声明
      • 2. 版本申明
      • 3. 简介
      • 4. 前置依赖
      • 5. 安装包介绍
      • 6. 部署示例
        • 6.1. 镜像制作
        • 6.2. 配置yaml文件过滤GFD Labels
        • 6.3. 部署NFD组件
        • 6.4. 检查NFD组件工作
        • 6.5. 卸载NFD组件
      • 7. 常见问题
    • K8S Driver Manager用户使用手册
      • 1. 版权声明
      • 2. 版本申明
      • 3. 简介
      • 4. 安装包介绍
      • 5. 镜像构建
      • 6. 系统基本设置
      • 7. 使用示例
        • 7.1. 启动k8s-driver-manager镜像
  • 可观测管理
    • GCU Exporter用户使用手册
      • 1. 版权声明
      • 2. 版本申明
      • 3. 简介
        • 3.1. 安装包介绍
        • 3.2. 前置依赖
      • 4. 查看版本号
      • 5. 端口
      • 6. 指标说明
        • 6.1. enflame_gcu_info
        • 6.2. enflame_gcu_sip_usage
        • 6.3. enflame_gcu_usage
        • 6.4. enflame_gcu_memory_total_bytes
        • 6.5. enflame_gcu_memory_used_bytes
        • 6.6. enflame_gcu_memory_usage
        • 6.7. enflame_gcu_count
        • 6.8. enflame_gcu_clock
        • 6.9. enflame_gcu_temperatures
        • 6.10. enflame_gcu_power_usage
        • 6.11. enflame_gcu_power_consumption
        • 6.12. enflame_gcu_power_capability
        • 6.13. enflame_gcu_health
        • 6.14. enflame_gcu_ecc_double_bit_error_total_count
        • 6.15. enflame_gcu_ecc_single_bit_error_total_count
        • 6.16. enflame_gcu_pcie_link_width
        • 6.17. enflame_gcu_pcie_max_link_width
        • 6.18. enflame_gcu_cluster_usage
        • 6.19. enflame_gcu_pg_usage(仅限i系列推理卡)
      • 7. 告警与处理
        • 7.1. enflame_gcu_health == 1,致命告警
        • 7.2. enflame_gcu_temperatures > 95,严重告警
        • 7.3. enflame_gcu_count < 正常值, 严重告警
        • 7.4. enflame_gcu_pcie_link_width < enflame_gcu_pcie_max_link_width,严重告警
      • 8. 部署
        • 8.1. 裸机部署
        • 8.2. 镜像构建
        • 8.3. 容器化部署
        • 8.4. K8S部署
      • 9. 常见问题
    • Node Exporter用户使用手册
      • 1. 版权声明
      • 2. 版本申明
      • 3. 简介
      • 4. 安装包介绍
      • 5. 使用示例
        • 5.1. 容器镜像构建
        • 5.2. 部署
        • 5.3. 卸载
        • 5.4. 查看版本号
        • 5.5. 端口
        • 5.6. Node Exporter指标
      • 6. 自定义指标使用说明
        • 6.1. 复制eid_to_prom脚本
        • 6.2. 添加定时任务
        • 6.3. node_exporter读取自定义的EID指标
      • 7. 常见问题
    • Node Problem Detector用户使用手册
      • 1. 版权声明
      • 2. 版本申明
      • 3. 简介
        • 3.1. 功能概述
        • 3.2. 使用场景
      • 4. 容器镜像构建
      • 5. 使用示例
        • 5.1. 镜像构建
        • 5.2. 部署
        • 5.3. 卸载
        • 5.4. 检查状态
      • 6. 使用示例
        • 6.1. 更新与Apply Yaml
        • 6.2. 关闭device-plugin和gcu exporter服务
        • 6.3. 查看节点详细事件
      • 7. Q&A
  • 部署运维
    • GCU Operator用户使用手册
      • 1. 版权声明
      • 2. 版本申明
      • 3. 背景
      • 4. gcu-operator简介
        • 4.1. gcu-operator是什么
        • 4.2. 如何查看gcu-operator版本
        • 4.3. gcu-operator提供哪些能力
      • 5. 部署示例
        • 5.1. 环境要求
        • 5.2. gcu-operator 发布包
        • 5.3. 构建operator组件镜像
        • 5.4. 构建operator软件栈镜像
        • 5.5. 镜像加载
        • 5.6. 部署gcu-operator
        • 5.7. 查看资源信息
        • 5.8. 容器引擎的自动重启
      • 6. 功能分析
        • 6.1. CR编排
        • 6.2. CR 详情
      • 7. 常见问题
        • 7.1. 如何查看日志
        • 7.2. 如何卸载gcu-resource和operator
        • 7.3. gcu-operator如何获取gcu软件的镜像
        • 7.4. 卸载的时候可以单独只卸载某个组件吗?
        • 7.5. operator在部署container-toolkit之后如果docker重启了,会影响后续组件的部署流程吗?
      • 8. 常见报错
        • 8.1. 构建driver镜像报错
        • 8.2. 部署gcu-operator时提示未安装驱动文件
      • 9. 附录
        • 9.1. helm3安装示例
        • 9.2. go1.18+安装示例
    • K8s Installer用户使用手册
      • 1. 版权声明
      • 2. 版本申明
      • 3. 简介
      • 4. 前置准备
        • 4.1. 系统基本设置
        • 4.2. 安装包准备
      • 5. k8s集群部署
        • 5.1. 使用配置文件创建集群
        • 5.2. 删除已创建集群
      • 6. 安装依赖
      • 7. 使用示例
        • 7.1. 镜像支持
      • 8. 常见问题
        • 8.1. 如何为部署的集群节点挂载efml组件
        • 8.2. 使用kubeadm-install.sh
  • 二次开发库
    • GO EFlib用户使用手册
      • 1. 版权声明
      • 2. 版本申明
      • 3. 简介
      • 4. 前置依赖
      • 5. 使用配置
        • 5.1. go.mod配置
        • 5.2. vendor配置
        • 5.3. import导入
        • 5.4. 代码示例
      • 6. 常见问题

合规声明

  • 文档法律声明
燧原软件栈文档中心
  • »
  • TopsCloud 产品综述 »
  • K8s Installer用户使用手册

K8s Installer用户使用手册¶

目录

  • 1. 版权声明
  • 2. 版本申明
  • 3. 简介
  • 4. 前置准备
    • 4.1. 系统基本设置
    • 4.2. 安装包准备
  • 5. k8s集群部署
    • 5.1. 使用配置文件创建集群
    • 5.2. 删除已创建集群
  • 6. 安装依赖
  • 7. 使用示例
    • 7.1. 镜像支持
  • 8. 常见问题
    • 8.1. 如何为部署的集群节点挂载efml组件
    • 8.2. 使用kubeadm-install.sh
Previous Next

Copyright © 2022-2025 上海燧原科技股份有限公司 | 备案/许可证编号:沪ICP备18023946号-1沪公网安备 31011502008689号.

Built with Sphinx using a theme provided by Read the Docs.