3.17. Qwen

Qwen-1_8B-Chat

模型下载

将上述url设定的路径下的内容全部下载到Qwen-1_8B-Chat文件夹中。

安装依赖

pip3.8 install tiktoken

批量离线推理

python3.8 -m vllm_utils.benchmark_test \
 --model=[path of hf_Qwen-1_8B-Chat_model] \
 --output-len=256 \
 --demo=te \
 --dtype=float16

性能测试

python3.8 -m vllm_utils.benchmark_test --perf \
 --model=[path of hf_Qwen-1_8B-Chat_model] \
 --max-model-len=8192 \
 --tokenizer=[path of hf_Qwen-1_8B-Chat_model] \
 --input-len=4096 \
 --output-len=4096 \
 --num-prompts=1 \
 --block-size=64 \
 --dtype=float16

注:

  • 本模型支持的max-model-len为8192;

  • input-lenoutput-lennum-prompts可按需调整;

  • dtype可按需调整;

  • 配置 output-len为1时,输出内容中的latency即为time_to_first_token_latency;

Qwen-7B

模型下载

  • url: Qwen-7B

  • branch: main

  • commit id: ef3c5c9

将上述url设定的路径下的内容全部下载到qwen_7b文件夹中。

安装依赖

pip3.8 install tiktoken

批量离线推理

python3.8 -m vllm_utils.benchmark_test \
 --model=[path of hf_qwen_model] \
 --output-len=256 \
 --demo=te \
 --dtype=float16

性能测试

python3.8 -m vllm_utils.benchmark_test --perf \
 --model=[path of hf_qwen_model] \
 --max-model-len=8192 \
 --tokenizer=[path of hf_qwen_model] \
 --input-len=4096 \
 --output-len=4096 \
 --num-prompts=1 \
 --block-size=64 \
 --dtype=float16

注:

  • 本模型支持的max-model-len为8192;

  • input-lenoutput-lennum-prompts可按需调整;

  • dtype可按需调整;

  • 配置 output-len为1时,输出内容中的latency即为time_to_first_token_latency;

Qwen-7B-Chat

模型下载

  • url: Qwen-7B-Chat

  • branch: main

  • commit id: 8867b2a8cc5e83bce0be47bb4155a9427dc23dd0

将上述url设定的路径下的内容全部下载到Qwen-7B-Chat文件夹中。

安装依赖

pip3.8 install tiktoken

批量离线推理

python3.8 -m vllm_utils.benchmark_test \
 --model=[path of hf_Qwen-7B-Chat_model] \
 --output-len=256 \
 --demo=te \
 --dtype=float16

性能测试

python3.8 -m vllm_utils.benchmark_test --perf \
 --model=[path of hf_Qwen-7B-Chat_model] \
 --max-model-len=8192 \
 --tokenizer=[path of hf_Qwen-7B-Chat_model] \
 --input-len=4096 \
 --output-len=4096 \
 --num-prompts=1 \
 --block-size=64 \
 --dtype=bfloat16

注:

  • 本模型支持的max-model-len为8192;

  • input-lenoutput-lennum-prompts可按需调整;

  • dtype可按需调整;

  • 配置 output-len为1时,输出内容中的latency即为time_to_first_token_latency;

Qwen-14B-Chat

模型下载

将上述url设定的路径下的内容全部下载到Qwen-14B-Chat文件夹中。

安装依赖

pip3.8 install tiktoken

批量离线推理

python3.8 -m vllm_utils.benchmark_test \
 --model=[path of hf_Qwen-14B-Chat_model] \
 --output-len=256 \
 --demo=te \
 --dtype=float16

性能测试

python3.8 -m vllm_utils.benchmark_test --perf \
 --model=[path of hf_Qwen-14B-Chat_model] \
 --max-model-len=2048 \
 --tokenizer=[path of hf_Qwen-14B-Chat_model] \
 --input-len=1024 \
 --output-len=1024 \
 --num-prompts=1 \
 --block-size=64 \
 --dtype=float16

注:

  • 本模型支持的max-model-len为2048;

  • input-lenoutput-lennum-prompts可按需调整;

  • dtype可按需调整;

  • 配置 output-len为1时,输出内容中的latency即为time_to_first_token_latency;

Qwen-72B-Chat

本模型推理及性能测试需要四张enflame gcu。

模型下载

将上述url设定的路径下的内容全部下载到Qwen-72B-Chat文件夹中。

安装依赖

pip3.8 install tiktoken

批量离线推理

python3.8 -m vllm_utils.benchmark_test \
 --model=[path of hf_Qwen-72B-Chat_model] \
 --tensor-parallel-size=4 \
 --output-len=256 \
 --demo=te \
 --dtype=float16 \
 --max-model-len=2048

性能测试

python3.8 -m vllm_utils.benchmark_test --perf \
 --model=[path of hf_Qwen-72B-Chat_model] \
 --tensor-parallel-size=4 \
 --max-model-len=2048 \
 --tokenizer=[path of hf_Qwen-72B-Chat_model] \
 --input-len=1024 \
 --output-len=1024 \
 --num-prompts=1 \
 --block-size=64 \
 --dtype=float16

注:

  • 本模型在ecc off模式下四卡支持的max-model-len为8192,ecc on模式下四卡支持的max-model-len为2048;

  • input-lenoutput-lennum-prompts可按需调整;

  • dtype可按需调整;

  • 配置 output-len为1时,输出内容中的latency即为time_to_first_token_latency;

Qwen1.5-7B

模型下载

将上述url设定的路径下的内容全部下载到Qwen1.5-7B文件夹中。

安装依赖

pip3.8 install tiktoken

批量离线推理

python3.8 -m vllm_utils.benchmark_test \
 --model=[path of hf_Qwen1.5-7B_model] \
 --output-len=256 \
 --demo=te \
 --dtype=float16

性能测试

python3.8 -m vllm_utils.benchmark_test --perf \
 --model=[path of hf_Qwen1.5-7B_model] \
 --max-model-len=16384 \
 --tokenizer=[path of hf_Qwen1.5-7B_model] \
 --input-len=8192 \
 --output-len=8192 \
 --num-prompts=1 \
 --block-size=64 \
 --dtype=float16

注:

  • 本模型支持的max-model-len为16384;

  • input-lenoutput-lennum-prompts可按需调整;

  • 配置 output-len为1时,输出内容中的latency即为time_to_first_token_latency;

Qwen1.5-14B-Chat

模型下载

  • url: Qwen1.5-14B-Chat

  • branch: main

  • commit id: 17e11c306ed235e970c9bb8e5f7233527140cdcf

将上述url设定的路径下的内容全部下载到Qwen1.5-14B-Chat文件夹中。

安装依赖

pip3.8 install tiktoken

批量离线推理

python3.8 -m vllm_utils.benchmark_test \
 --model=[path off hf_Qwen1.5-14B-Chat_model] \
 --output-len=256 \
 --demo=te \
 --dtype=float16 \
 --max-model-len=2048

性能测试

python3.8 -m vllm_utils.benchmark_test --perf \
 --model=[path of hf_Qwen1.5-14B-Chat_model] \
 --max-model-len=8192 \
 --tokenizer=[path of hf_Qwen1.5-14B-Chat_model] \
 --input-len=4096 \
 --output-len=4096 \
 --num-prompts=1 \
 --block-size=64 \
 --dtype=float16

注:

  • 本模型支持的max-model-len为8192;

  • input-lenoutput-lennum-prompts可按需调整;

  • 配置 output-len为1时,输出内容中的latency即为time_to_first_token_latency;

Qwen1.5-32B

本模型推理及性能测试需要2张enflame gcu。

模型下载

  • url: Qwen1.5-32B

  • branch: main

  • commit id: cefef80dc06a65f89d1d71d0adbc56d335ca2490

将上述url设定的路径下的内容全部下载到Qwen1.5-32B文件夹中。

安装依赖

pip3.8 install tiktoken

批量离线推理

python3.8 -m vllm_utils.benchmark_test \
 --model=[path of hf_Qwen1.5-32B_model] \
 --tensor-parallel-size=2 \
 --output-len=256 \
 --demo=te \
 --dtype=float16 \
 --max-model-len=2048

性能测试

python3.8 -m vllm_utils.benchmark_test --perf \
 --model=[path of hf_Qwen1.5-32B_model] \
 --tensor-parallel-size=2 \
 --max-model-len=4096 \
 --tokenizer=[path of hf_Qwen1.5-32B_model] \
 --input-len=2048 \
 --output-len=2048 \
 --num-prompts=1 \
 --block-size=64 \
 --dtype=float16

注:

  • 本模型支持的max-model-len为4096;

  • input-lenoutput-lennum-prompts可按需调整;

  • 配置 output-len为1时,输出内容中的latency即为time_to_first_token_latency;

Qwen1.5-72B-Chat

本模型推理及性能测试需要4张enflame gcu。

模型下载

  • url: Qwen1.5-72B-Chat

  • branch: main

  • commit id: 1a6ccc1215278f962c794b1848c710c29ef4053d

将上述url设定的路径下的内容全部下载到Qwen1.5-72B-Chat文件夹中。

安装依赖

pip3.8 install tiktoken

批量离线推理

python3.8 -m vllm_utils.benchmark_test \
 --model=[path of hf_Qwen1.5-72B-Chat_model] \
 --tensor-parallel-size=4 \
 --output-len=256 \
 --demo=te \
 --dtype=float16 \
 --max-model-len=2048

性能测试

python3.8 -m vllm_utils.benchmark_test --perf \
 --model=[path of hf_Qwen1.5-72B-Chat_model] \
 --tensor-parallel-size=4 \
 --max-model-len=2048 \
 --tokenizer=[path of hf_Qwen1.5-72B-Chat_model] \
 --input-len=1024 \
 --output-len=1024 \
 --num-prompts=1 \
 --block-size=64 \
 --dtype=float16

注:

  • 本模型支持的max-model-len为2048;

  • input-lenoutput-lennum-prompts可按需调整;

  • 配置 output-len为1时,输出内容中的latency即为time_to_first_token_latency;

Qwen1.5-14B-Chat-w8a16

本模型推理及性能测试需要1张enflame gcu。

模型下载

  • 如需要下载权重,请联系商务人员开通EGC权限进行下载

  • 下载QWen1.5-14b-chat-w8a16.tar文件并解压,将压缩包内的内容全部拷贝到QWen1.5-14b-chat_w8a16文件夹中。

  • QWen1.5-14b-chat_w8a16目录结构如下所示:

QWen1.5-14b-chat_w8a16/
            ├── config.json
            ├── generation_config.json
            ├── model.safetensors
            ├── quantize_config.json
            ├── tokenizer.json
            ├── tokenizer_config.json
            ├── merges.txt
            ├── tops_quantize_info.json
            └── vocab.json

批量离线推理

python3.8 -m vllm_utils.benchmark_test \
 --model=[path of QWen1.5-14b-chat_w8a16] \
 --demo=te \
 --dtype=float16 \
 --quantization=w8a16 \
 --output-len=256 \
 --max-model-len=2048

性能测试

python3.8 -m vllm_utils.benchmark_test --perf \
 --model=[path of QWen1.5-14b-chat_w8a16] \
 --input-len=512 \
 --output-len=128 \
 --num-prompts=16 \
 --block-size=64 \
 --max-model-len=2048 \
 --dtype=float16 \
 --quantization=w8a16

注:

  • 单张gcu上可以支持的max-model-len为16k,若需使用到模型自身支持的32k的max-model-len,则需设置--tensor-parallel-size=2

  • input-lenoutput-lennum-prompts可按需调整;

  • 配置 output-len为1时,输出内容中的latency即为time_to_first_token_latency;

Qwen-14B-Chat-w8a16

本模型推理及性能测试需要1张enflame gcu。

模型下载

  • 如需要下载权重,请联系商务人员开通EGC权限进行下载

  • 下载Qwen-14B-Chat-w8a16.tar文件并解压,将压缩包内的内容全部拷贝到Qwen-14B-Chat_w8a16文件夹中。

  • Qwen-14B-Chat_w8a16目录结构如下所示:

Qwen-14B-Chat_w8a16/
  ├── config.json
  ├── configuration_qwen.py
  ├── model.safetensors
  ├── quantize_config.json
  ├── qwen.tiktoken
  ├── tokenization_qwen.py
  ├── tokenizer_config.json
  └── tops_quantize_info.json

批量离线推理

python3.8 -m vllm_utils.benchmark_test \
 --model=[path of Qwen-14B-Chat_w8a16] \
 --demo=te \
 --dtype=float16 \
 --quantization=w8a16 \
 --output-len=256

性能测试

python3.8 -m vllm_utils.benchmark_test --perf \
 --model=[path of Qwen-14B-Chat_w8a16] \
 --input-len=1024 \
 --output-len=1024 \
 --num-prompts=1 \
 --block-size=64 \
 --max-model-len=2048 \
 --dtype=float16 \
 --quantization=w8a16

注:

  • 单张gcu上可以支持的max-model-len为2048;

  • input-lenoutput-lennum-prompts可按需调整;

  • 配置 output-len为1时,输出内容中的latency即为time_to_first_token_latency;

Qwen-72B-Chat-w8a16

本模型推理及性能测试需要4张enflame gcu。

模型下载

  • 如需要下载权重,请联系商务人员开通EGC权限进行下载

  • 下载Qwen-72B-Chat-w8a16.tar文件并解压,将压缩包内的内容全部拷贝到Qwen-72B-Chat_w8a16文件夹中。

  • Qwen-72B-Chat_w8a16目录结构如下所示:

Qwen-72B-Chat_w8a16/
  ├── config.json
  ├── configuration_qwen.py
  ├── model.safetensors
  ├── quantize_config.json
  ├── qwen.tiktoken
  ├── tokenization_qwen.py
  ├── tokenizer_config.json
  └── tops_quantize_info.json

批量离线推理

python3.8 -m vllm_utils.benchmark_test \
 --model=[path of Qwen-72B-Chat_w8a16] \
 --demo=te \
 --dtype=float16 \
 --quantization=w8a16 \
 --output-len=256 \
 --max-model-len=2048 \
 --tensor-parallel-size=4

性能测试

python3.8 -m vllm_utils.benchmark_test --perf \
 --model=[path of Qwen-72B-Chat_w8a16] \
 --input-len=1024 \
 --output-len=1024 \
 --num-prompts=1 \
 --block-size=64 \
 --max-model-len=2048 \
 --dtype=float16 \
 --quantization=w8a16 \
 --tensor-parallel-size=4

注:

  • gcu4卡上可以支持的max-model-len为2048;

  • input-lenoutput-lennum-prompts可按需调整;

  • 配置 output-len为1时,输出内容中的latency即为time_to_first_token_latency;