vllm

DCU

vLLM是一个快速且易于使用的LLM推理服务库，使用PageAttention高效管理KV缓存，支持Continuous batching传入请求，支持很多Hugging Face模型，如LLaMA & LLaMA-2、Qwen、ChatGLM2 & ChatGLM3等。

下载更新于 2026-02-03 15:38:46

基于镜像创建的容器可提升通用的vllm运行环境，配合DCU可获得显著的加速效果。

前置条件

安装DCU加速卡，并完成其对应驱动的安装；
正确安装docker；可参考DCU入门手册；

启动方式

docker run -it \
  --network=host \
  --ipc=host \
  --shm-size=16G \
  --device=/dev/kfd \
  --device=/dev/dri \
  --group-add video \
  --volume=/path/to/host:/hyal \
  --cap-add SYS_PTRACE \
  --security-opt seccomp=unconfined \
  images.sourcefind.cn/deepai/base/vllm:0.8.5-duntu22.04-dtk26.04-py3.10 \
  python -m vllm.entrypoints.openai.api_server \
  --model /hyal/model_path \
  --tensor-parallel-size 1 \
  --served-model-name gpt2 \
  --trust-remote-code

注：(1) 若出现libGL.so.1: cannot open shared object file: No such file or directory错误，请在启动命令上加上-v /usr/lib64/libGL.so.1:/usr/lib64/libGL.so.1 *

(2) 打开容器后若无法输入，-t分配一个伪终端

--network=host 设置网络模式（bridge/host/自定义网络）。

--shm-size=16G 设置shm大小

--device=/dev/kfd 指定访问设备（DCU需要添加此选项）

--device=/dev/dri

--group-add video 设置用户权限组（需要使用DCU需要）。

--volume=/path/to/host:/hyal 将主机目录挂载到容器内

--cap-add SYS_PTRACE 启用PTrace权限

--security-opt seccomp=unconfined 安全配置（Seccomp=unconfined）

images.sourcefind.cn/deepai/base/vllm:0.8.5-duntu22.04-dtk26.04-py3.10 镜像地址

镜像组成

软件开发包：dk
驱动：vllm
软件：triton, lm-sys, flash-attn

技术方向

vllm

前置条件

启动方式

镜像组成

chenwanhu

网友

Hi

网友HiGH-NN