5.4. Qwen

Qwen2-72B-w8a8c8

本模型推理及性能测试需要4张enflame gcu。

  • 如需要下载权重,请联系商务人员开通EGC权限进行下载

  • 下载Qwen2-72B-w8a8.tar文件并解压,将压缩包内的内容全部拷贝到Qwen2-72B-w8a8c8文件夹中。

  • Qwen2-72B-w8a8c8目录结构如下所示:

Qwen2-72B-w8a8c8/

批量离线推理

python3 -m vllm_utils.benchmark_test \
 --model=[path of Qwen2-72B-w8a8c8] \
 --max-model-len=32768 \
 --demo=te \
 --dtype=bfloat16 \
 --tensor-parallel-size=4 \
 --quantization-param-path=[path of Qwen2-72B-w8a8c8] \
 --kv-cache-dtype=int8 \
 --output-len=256

serving模式

# 启动服务端
python3 -m vllm.entrypoints.openai.api_server \
 --model=[path of Qwen2-72B-w8a8c8]  \
 --max-model-len=32768  \
 --tensor-parallel-size=4 \
 --disable-log-requests  \
 --gpu-memory-utilization=0.9  \
 --block-size=64 \
 --dtype=bfloat16 \
 --kv-cache-dtype=int8 \
 --quantization-param-path=[path of Qwen2-72B-w8a8c8]


# 启动客户端
python3 -m vllm_utils.benchmark_serving --backend=vllm  \
 --dataset-name=random  \
 --model=[path of Qwen2-72B-w8a8c8]  \
 --num-prompts=1  \
 --random-input-len=3000 \
 --random-output-len=1000 \
 --trust-remote-code

注:

  • 本模型支持的max-model-len为32768;

  • input-lenoutput-lennum-prompts可按需调整;

  • 配置 output-len为1时,输出内容中的latency即为time_to_first_token_latency;