5.4. Qwen¶

Qwen2-72B-w8a8c8¶

本模型推理及性能测试需要4张enflame gcu。

如需要下载权重，请联系商务人员开通EGC权限进行下载

下载Qwen2-72B-w8a8.tar文件并解压，将压缩包内的内容全部拷贝到Qwen2-72B-w8a8c8文件夹中。
Qwen2-72B-w8a8c8目录结构如下所示：

Qwen2-72B-w8a8c8/

批量离线推理¶

python3 -m vllm_utils.benchmark_test \
 --model=[path of Qwen2-72B-w8a8c8] \
 --max-model-len=32768 \
 --demo=te \
 --dtype=bfloat16 \
 --tensor-parallel-size=4 \
 --quantization-param-path=[path of Qwen2-72B-w8a8c8] \
 --kv-cache-dtype=int8 \
 --output-len=256

serving模式¶

# 启动服务端
python3 -m vllm.entrypoints.openai.api_server \
 --model=[path of Qwen2-72B-w8a8c8]  \
 --max-model-len=32768  \
 --tensor-parallel-size=4 \
 --disable-log-requests  \
 --gpu-memory-utilization=0.9  \
 --block-size=64 \
 --dtype=bfloat16 \
 --kv-cache-dtype=int8 \
 --quantization-param-path=[path of Qwen2-72B-w8a8c8]


# 启动客户端
python3 -m vllm_utils.benchmark_serving --backend=vllm  \
 --dataset-name=random  \
 --model=[path of Qwen2-72B-w8a8c8]  \
 --num-prompts=1  \
 --random-input-len=3000 \
 --random-output-len=1000 \
 --trust-remote-code

注：

本模型支持的max-model-len为32768；
input-len、output-len和num-prompts可按需调整；
配置 output-len为1时,输出内容中的latency即为time_to_first_token_latency;