下载嵌入模型
modelscope download--modelQwen/Qwen3-Embedding-0.6B--local_dir/home/cyber/models/Qwen/Qwen3-embedding-0.6B使用vllm 启动模型,注意大坑 --task embed \ 这个千万别加,加了就起不来了
sudodockerrun-it\--runtime=nvidia\--networkhost\--shm-size=6.4g\--restartunless-stopped\-v/home/cyber/models:/models\ghcr.nju.edu.cn/nvidia-ai-iot/vllm:latest-jetson-orin\vllm serve /models/Qwen/Qwen3-embedding-0.6B\--port8091\--gpu-memory-utilization0.1\--enforce-eager因为嵌入模型很小,这个几个参数要注意; --gpu-memory-utilization 0.1,–shm-size=6.4g