5.3. chunked prefill¶

功能介绍¶

vLLM官方chunked prefill

该示例使用内置的prefix和prompts给出了启用chunked prefill功能时的推理效果。

使用方法¶

python3 -m vllm_utils.offline_inference_with_chunked_prefill --model=[path of model] --device=[device type] --max-tokens=128 --tensor-parallel-size=1

各参数含义如下：

--model：model存储路径；
--device：设备类型，默认为gcu；
--max-tokens:推理生成的最多token数量，默认值128，可按需调整；
--max-num-batched-tokens:推理时，一个batch中最多的token数量，默认值256，可按需向上调整；
--tensor-parallel-size:张量并行数，默认值1，可按需调整；
--gpu-memory-utilization：vLLM允许的最大显存占用比例，默认0.9，可按需调整；
默认采用graph模式进行推理，可以添加--enforce-eager启用eager mode进行推理；