Logo
Enflame Documents
Version:   v3.3.20

集群部署与设备管理

  • TopsCloud 产品综述
    • TopsCloud用户手册
      • 1. 版权声明
      • 2. 版本申明
      • 3. 简介
      • 4. 专有名词解释
      • 5. 前置依赖
      • 6. 平台以及OS支持说明
      • 7. 文档使用说明
        • 7.1. k8s-device-plugin使用说明
        • 7.2. enflame-container-toolkit使用说明
        • 7.3. gcu-operater使用说明
        • 7.4. gcu-exporter使用说明
        • 7.5. gcushare使用说明
        • 7.6. gcu-feature-discovery使用说明
        • 7.7. node-feature-discovery使用说明
        • 7.8. node-problem-detector使用说明
        • 7.9. 其他组件
      • 8. 二次开发使用说明
      • 9. containerd配置使用说明
        • 9.1. cgroup driver配置
        • 9.2. cgroup driver配置的一致性
        • 9.3. cgroup v1 和cgroup v2
        • 9.4. 其他不支持systemd的情况
        • 9.5. containerd镜像构建
      • 10. GCU标签自动生成使用说明
        • 10.1. 基础组件
        • 10.2. 基于NFD与GFD的使用方案
      • 11. GCU标签手工生成使用说明
        • 11.1. 如何给节点打上标签
        • 11.2. 为pod配置节点亲和性示例
        • 11.3. 应用示例
      • 12. 常见问题
  • 资源管理
    • Container Toolkit用户使用手册
      • 1. 版权声明
      • 2. 版本申明
      • 3. 简介
      • 4. 前置依赖
      • 5. 安装包
      • 6. 安装说明
        • 6.1. enflame-container-toolkit.run
        • 6.2. gen_config.sh
        • 6.3. install.sh
      • 7. 使用说明
        • 7.1. 环境变量
        • 7.2. 运行时日志
        • 7.3. 查看工具版本号
      • 8. 常见问题
    • K8S Plugin用户使用手册
      • 1. 版权声明
      • 2. 版本申明
      • 3. 简介
      • 4. 前置依赖
      • 5. 主要功能
      • 6. 软件包介绍
      • 7. 部署示例
        • 7.1. 查看版本号
        • 7.2. 配置参数
        • 7.3. 构建镜像
        • 7.4. 配置文件
        • 7.5. 部署k8s-device-plugin
        • 7.6. 申请GCU设备
        • 7.7. 申请VGCU设备
      • 8. 使用CDI模式
        • 8.1. 容器引擎开启CDI模式
        • 8.2. k8s版本<1.28
        • 8.3. k8s版本>=1.28
        • 8.4. 以CDI模式部署k8s-device-plugin
      • 9. 使用NUMA亲和性调度
        • 9.1. 修改kubelet配置
        • 9.2. 验证NUMA亲和性调度
      • 10. 使用Pcie Switch亲和性调度
        • 10.1. 以Pcie Switch Affinity模式部署k8s-device-plugin
        • 10.2. 验证Pcie Switch亲和性调度
      • 11. 使用CPU manager模式
        • 11.1. 以CPU Manager模式部署k8s-device-plugin
        • 11.2. 验证CPU Manager功能
      • 12. 卸载k8s-device-plugin
      • 13. 常见问题
    • GCUShare用户使用手册
      • 1. 版权声明
      • 2. 版本申明
      • 3. 简介
        • 3.1. 背景
        • 3.2. 前置依赖
        • 3.3. 查看版本号
        • 3.4. GCUShare主要组件
        • 3.5. GCUShare功能概要
        • 3.6. GCUShare Chart说明
      • 4. 安装GCUShare组件
        • 4.1. 制作gcushare组件镜像
        • 4.2. 安装gcushare组件
      • 5. 使用共享GCU
        • 5.1. 场景示例
        • 5.2. 以更细粒度共享GCU
        • 5.3. 查看日志
      • 6. 组件卸载
        • 6.1. gcushare-scheduler-extender卸载
        • 6.2. gcushare-device-plugin卸载
      • 7. 常见问题
    • GCU Feature Discovery用户使用手册
      • 1. 版权声明
      • 2. 版本申明
      • 3. 简介
      • 4. GFD部署
        • 4.1. 前置依赖
        • 4.2. 安装包说明
        • 4.3. 提供的标签
        • 4.4. 配置与部署NFD
        • 4.5. GFD 配置文件
        • 4.6. 制作GFD组件镜像
        • 4.7. 部署GFD组件
        • 4.8. 检查GFD组件工作
        • 4.9. 卸载GFD组件
      • 5. all-in-one使用示例
        • 5.1. 构建与部署
        • 5.2. 标签使用
      • 6. 常见问题
    • Node Feature Discovery用户使用手册
      • 1. 版权声明
      • 2. 版本申明
      • 3. 简介
      • 4. 前置依赖
      • 5. 安装包介绍
      • 6. 部署示例
        • 6.1. 镜像制作
        • 6.2. 配置yaml文件过滤GFD Labels
        • 6.3. 部署NFD组件
        • 6.4. 检查NFD组件工作
        • 6.5. 卸载NFD组件
      • 7. 常见问题
    • K8S Driver Manager用户使用手册
      • 1. 版权声明
      • 2. 版本申明
      • 3. 简介
      • 4. 安装包介绍
      • 5. 镜像构建
      • 6. 系统基本设置
      • 7. 使用示例
        • 7.1. 启动k8s-driver-manager镜像
  • 可观测管理
    • GCU Exporter用户使用手册
      • 1. 版权声明
      • 2. 版本申明
      • 3. 简介
        • 3.1. 安装包介绍
        • 3.2. 前置依赖
      • 4. 查看版本号
      • 5. 端口
      • 6. 指标说明
        • 6.1. enflame_gcu_info
        • 6.2. enflame_gcu_usage
        • 6.3. enflame_gcu_memory_total_bytes
        • 6.4. enflame_gcu_memory_used_bytes
        • 6.5. enflame_gcu_memory_usage
        • 6.6. enflame_gcu_count
        • 6.7. enflame_gcu_clock
        • 6.8. enflame_gcu_temperatures
        • 6.9. enflame_gcu_power_usage
        • 6.10. enflame_gcu_power_consumption
        • 6.11. enflame_gcu_power_capability
        • 6.12. enflame_gcu_health
        • 6.13. enflame_gcu_ecc_double_bit_error_total_count
        • 6.14. enflame_gcu_ecc_single_bit_error_total_count
        • 6.15. enflame_gcu_pcie_link_width
        • 6.16. enflame_gcu_pcie_max_link_width
        • 6.17. enflame_gcu_cluster_usage
        • 6.18. enflame_gcu_pg_usage(仅限i系列推理卡)
      • 7. 告警与处理
        • 7.1. enflame_gcu_health == 1,致命告警
        • 7.2. enflame_gcu_temperatures > 95,严重告警
        • 7.3. enflame_gcu_count < 正常值, 严重告警
        • 7.4. enflame_gcu_pcie_link_width < enflame_gcu_pcie_max_link_width,严重告警
      • 8. 部署
        • 8.1. 裸机部署
        • 8.2. 镜像构建
        • 8.3. 容器化部署
        • 8.4. K8S部署
      • 9. 常见问题
    • GCU Monitor Examples用户使用手册
      • 1. 版权声明
      • 2. 版本申明
      • 3. 简介
      • 4. 应用示例
        • 4.1. gcu-exporter 镜像构建
        • 4.2. k8s部署示例
        • 4.3. docker部署示例
        • 4.4. 通过Prometheus 查看运行指标
        • 4.5. 通过Grafana查看运行指标
        • 4.6. 添加Grafana数据源
        • 4.7. 导入Grafana UI模板文件
      • 5. 注意事项
    • Node Exporter用户使用手册
      • 1. 版权声明
      • 2. 版本申明
      • 3. 简介
      • 4. 安装包介绍
      • 5. 使用示例
        • 5.1. 容器镜像构建
        • 5.2. 部署
        • 5.3. 卸载
        • 5.4. 查看版本号
        • 5.5. 端口
        • 5.6. Node Exporter指标
      • 6. 常见问题
    • Node Problem Detector用户使用手册
      • 1. 版权声明
      • 2. 版本申明
      • 3. 简介
        • 3.1. 功能概述
        • 3.2. 使用场景
      • 4. 容器镜像构建
      • 5. 使用示例
        • 5.1. 镜像构建
        • 5.2. 部署
        • 5.3. 卸载
        • 5.4. 检查状态
      • 6. 使用示例
        • 6.1. 更新与Apply Yaml
        • 6.2. 关闭device-plugin和gcu exporter服务
        • 6.3. 查看节点详细事件
      • 7. Q&A
  • 部署运维
    • GCU Operator用户使用手册
      • 1. 版权声明
      • 2. 版本申明
      • 3. 背景
      • 4. gcu-operator简介
        • 4.1. gcu-operator是什么
        • 4.2. 如何查看gcu-operator版本
        • 4.3. gcu-operator提供哪些能力
      • 5. 部署示例
        • 5.1. 环境要求
        • 5.2. gcu-operator 发布包
        • 5.3. 构建operator组件镜像
        • 5.4. 构建operator软件栈镜像
        • 5.5. 镜像加载
        • 5.6. 部署gcu-operator
        • 5.7. 查看资源信息
        • 5.8. 容器引擎的自动重启
      • 6. 功能分析
        • 6.1. CR编排
        • 6.2. CR 详情
      • 7. 常见问题
        • 7.1. 如何查看日志
        • 7.2. 如何卸载gcu-resource和operator
        • 7.3. gcu-operator如何获取gcu软件的镜像
        • 7.4. 卸载的时候可以单独只卸载某个组件吗?
        • 7.5. operator在部署container-toolkit之后如果docker重启了,会影响后续组件的部署流程吗?
      • 8. 常见报错
        • 8.1. 构建driver镜像报错
        • 8.2. 部署gcu-operator时提示未安装驱动文件
      • 9. 附录
        • 9.1. helm3安装示例
        • 9.2. go1.18+安装示例
    • K8s Installer用户使用手册
      • 1. 版权声明
      • 2. 版本申明
      • 3. 简介
      • 4. 前置准备
        • 4.1. 系统基本设置
        • 4.2. 安装包准备
      • 5. 使用kubeadm-install.sh一键安装单机k8s集群
        • 5.1. 查看可安装的docker版本列表
        • 5.2. 查看可安装的k8s版本列表
        • 5.3. 安装k8s
      • 6. 安装依赖包
      • 7. 使用示例
        • 7.1. 下载并安装sealer
        • 7.2. 已支持的镜像列表
        • 7.3. 创建一个单机K8S集群示例
        • 7.4. 创建一个多机K8S集群示例
        • 7.5. k8s集群安装脚本示例
        • 7.6. 增加节点
        • 7.7. 清理集群
        • 7.8. 其他sealer命令
      • 8. 高级功能 - 自定义K8S镜像参考
        • 8.1. 基于K8S基础版本制作新版本镜像(v1.24.0之前的版本)
        • 8.2. 基于K8S基础版本制作新版本镜像(v1.24.0之后的版本)
        • 8.3. 完成镜像的构建
      • 9. 常见问题
        • 9.1. 使用sealer
        • 9.2. 使用kubeadm-install.sh
  • 二次开发库
    • GO EFlib用户使用手册
      • 1. 版权声明
      • 2. 版本申明
      • 3. 简介
      • 4. 前置依赖
      • 5. 使用配置
        • 5.1. go.mod配置
        • 5.2. vendor配置
        • 5.3. import导入
        • 5.4. 代码示例
      • 6. 常见问题

合规声明

  • 文档法律声明
燧原软件栈文档中心
  • »
  • TopsCloud 产品综述 »
  • Node Feature Discovery用户使用手册

Node Feature Discovery用户使用手册¶

目录

  • 1. 版权声明
  • 2. 版本申明
  • 3. 简介
  • 4. 前置依赖
  • 5. 安装包介绍
  • 6. 部署示例
    • 6.1. 镜像制作
    • 6.2. 配置yaml文件过滤GFD Labels
    • 6.3. 部署NFD组件
    • 6.4. 检查NFD组件工作
    • 6.5. 卸载NFD组件
  • 7. 常见问题
Previous Next

Copyright © 2024 上海燧原科技股份有限公司 | 备案/许可证编号:沪ICP备18023946号-1沪公网安备 31011502008689号.

Built with Sphinx using a theme provided by Read the Docs.