TopsDistInfer使用说明

TopsDistInfer用于LLM的分布式推理,包括模型自动切分与在Enflame GCU上推理。具体使用流程:

  • 1 模型切分;

  • 2 模型推理;

推理文件包目录结构:

├── topsdistinfer_partition_cpu-*-py3-none-any.whl
├── topsdistinfer_auto_split.tar
├── topsdistinfer_pipeline_infer_*_amd64.deb
├── topsdistinfer_pipeline_infer_*_amd64.deb.md5
├── topsdistinfer_pipeline_infer-*.x86_64.rpm
└── topsdistinfer_pipeline_infer-*.x86_64.rpm.md5
  • topsdistinfer_partition_cpu-*-py3-None-any.whl包含transformers模型切分相关工具;

  • topsdistinfer_auto_split.tar包含Megatron模型切分相关代码;

  • debrpm为不同Linux系统下的模型推理相关安装包。