TopsDistInfer使用说明¶
TopsDistInfer用于LLM的分布式推理,包括模型自动切分与在Enflame GCU上推理。具体使用流程:
1 模型切分;
2 模型推理;
推理文件包目录结构:
├── topsdistinfer_partition_cpu-*-py3-none-any.whl
├── topsdistinfer_auto_split.tar
├── topsdistinfer_pipeline_infer_*_amd64.deb
├── topsdistinfer_pipeline_infer_*_amd64.deb.md5
├── topsdistinfer_pipeline_infer-*.x86_64.rpm
└── topsdistinfer_pipeline_infer-*.x86_64.rpm.md5
topsdistinfer_partition_cpu-*-py3-None-any.whl
包含transformers模型切分相关工具;topsdistinfer_auto_split.tar
包含Megatron模型切分相关代码;deb
及rpm
为不同Linux系统下的模型推理相关安装包。