5.3. chunked prefill¶
功能介绍¶
该示例使用内置的prefix
和prompts
给出了启用chunked prefill
功能时的推理效果。
使用方法¶
python3 -m vllm_utils.offline_inference_with_chunked_prefill --model=[path of model] --device=[device type] --max-tokens=128 --tensor-parallel-size=1
各参数含义如下:
--model
:model存储路径;--device
:设备类型,默认为gcu
;--max-tokens
:推理生成的最多token数量,默认值128,可按需调整;--max-num-batched-tokens
:推理时,一个batch中最多的token数量,默认值256,可按需向上调整;--tensor-parallel-size
:张量并行数,默认值1,可按需调整;--gpu-memory-utilization
:vLLM允许的最大显存占用比例,默认0.9,可按需调整;默认采用graph模式进行推理,可以添加
--enforce-eager
启用eager mode进行推理;