vllm

DCU

vLLM是一个快速且易于使用的LLM推理服务库,使用PageAttention高效管理KV缓存,支持Continuous batching传入请求,支持很多Hugging Face模型,如LLaMA & LLaMA-2、Qwen、ChatGLM2 & ChatGLM3等。

下载 更新于 2026-02-03 15:38:46

基于镜像创建的容器可提升通用的vllm运行环境,配合DCU可获得显著的加速效果。

前置条件

  1. 安装DCU加速卡,并完成其对应驱动的安装;
  2. 正确安装docker;可参考DCU入门手册

启动方式

docker run -it \
  --network=host \
  --ipc=host \
  --shm-size=16G \
  --device=/dev/kfd \
  --device=/dev/dri \
  --group-add video \
  --volume=/path/to/host:/hyal \
  --cap-add SYS_PTRACE \
  --security-opt seccomp=unconfined \
  images.sourcefind.cn/deepai/base/vllm:0.8.5-duntu22.04-dtk26.04-py3.10 \
  python -m vllm.entrypoints.openai.api_server \
  --model /hyal/model_path \
  --tensor-parallel-size 1 \
  --served-model-name gpt2 \
  --trust-remote-code

注:(1) 若出现libGL.so.1: cannot open shared object file: No such file or directory错误,请在启动命令上加上-v /usr/lib64/libGL.so.1:/usr/lib64/libGL.so.1 *

(2) 打开容器后若无法输入,-t分配一个伪终端

--network=host 设置网络模式(bridge/host/自定义网络)。

--shm-size=16G 设置shm大小

--device=/dev/kfd 指定访问设备(DCU需要添加此选项)

--device=/dev/dri

--group-add video 设置用户权限组(需要使用DCU需要)。

--volume=/path/to/host:/hyal 将主机目录挂载到容器内

--cap-add SYS_PTRACE 启用PTrace权限

--security-opt seccomp=unconfined 安全配置(Seccomp=unconfined)

images.sourcefind.cn/deepai/base/vllm:0.8.5-duntu22.04-dtk26.04-py3.10 镜像地址

镜像组成

  • 软件开发包:dk
  • 驱动:vllm
  • 软件:triton, lm-sys, flash-attn