4.7. fusedmoe¶
功能介绍¶
融合MoE性能提升:通过优化融合技术,使用混合专家(MoE)架构的模型性能得到了显著提升。这一更新增强了专家层计算的执行效率,减少了开销,并提高了利用大规模MoE模型的任务的吞吐量。
使用方法¶
MoE类模型默认都会使能FusedMoE功能。在多卡推理情况下,默认MoE采用的Tensor Parallelism (TP)的并行方式,可以通过添加参数enable_expert_parallel=True使能Expert Parallelism (EP)。