8.2. qwen¶
qwen3-reranker-4b¶
模型下载¶
url: qwen3-reranker-4b
branch:
maincommit id:
f16fc5d
将上述 url 路径下的内容全部下载到 qwen3-reranker-4b 文件夹中。
注:需要安装以下依赖:
python3 -m pip install transformers==4.51.3 beir==2.2.0
环境变量¶
export VLLM_USE_V1=0
export TORCHGCU_INDUCTOR_ENABLE=0
export PYTORCH_EFML_BASED_GCU_CHECK=1
export TORCH_ECCL_AVOID_RECORD_STREAMS=1
export VLLM_WORKER_MULTIPROC_METHOD=spawn
export VLLM_ATTENTION_BACKEND=XFORMERS
在线测试¶
# 启动服务端
vllm serve [path of qwen3-reranker-4b] \
--served-model-name qwen3-reranker-4b \
--task embed \
--trust-remote-code \
--port 6343 \
--dtype=bfloat16 \
--max-model-len 32768 \
--tensor-parallel-size 1 \
--gpu-memory-utilization 0.9 \
--block-size=64 \
--trust-remote-code
# 启动客户端
curl -X POST \
http://localhost:6343/rerank \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3-reranker-4b",
"query": "人工智能在医疗领域的应用现状",
"documents": [
"AI医学影像识别可辅助医生诊断肺癌、乳腺癌等疾病,准确率超95%",
"自然语言处理技术用于电子病历分析,提升病历检索效率300%",
"深度学习是人工智能的一个分支,基于神经网络"
],
"normalize": false
}'
性能测试¶
# 启动服务端
vllm serve [path of qwen3-reranker-4b] \
--served-model-name qwen3-reranker-4b \
--task embed \
--trust-remote-code \
--port 6343 \
--dtype=bfloat16 \
--max-model-len 32768 \
--tensor-parallel-size 1 \
--gpu-memory-utilization 0.9 \
--block-size=64 \
--trust-remote-code
# 启动客户端
python3 -m vllm_utils.benchmark_embedding_rerank \
--tokenizer [path of qwen3-reranker-4b] \
--trust-remote-code \
--test-type rerank \
--api-url http://localhost:6343/rerank \
--model qwen3-reranker-4b \
--input-len 1024 \
--total-requests 256 \
--query-len 20 \
--num-docs 1 \
--max-concurrency 1