vllm
DCUvLLM是一个快速且易于使用的LLM推理服务库,使用PageAttention高效管理KV缓存,支持Continuous batching传入请求,支持很多Hugging Face模型,如LLaMA & LLaMA-2、Qwen、ChatGLM2 & ChatGLM3等。
下载
更新于 2026-02-03 15:38:46
基于镜像创建的容器可提升通用的vllm运行环境,配合DCU可获得显著的加速效果。
前置条件
- 安装DCU加速卡,并完成其对应驱动的安装;
- 正确安装docker;可参考DCU入门手册;
启动方式
docker run -it \ --network=host \ --ipc=host \ --shm-size=16G \ --device=/dev/kfd \ --device=/dev/dri \ --group-add video \ --volume=/path/to/host:/hyal \ --cap-add SYS_PTRACE \ --security-opt seccomp=unconfined \ images.sourcefind.cn/deepai/base/vllm:0.8.5-duntu22.04-dtk26.04-py3.10 \ python -m vllm.entrypoints.openai.api_server \ --model /hyal/model_path \ --tensor-parallel-size 1 \ --served-model-name gpt2 \ --trust-remote-code
注:(1) 若出现libGL.so.1: cannot open shared object file: No such file or directory错误,请在启动命令上加上-v /usr/lib64/libGL.so.1:/usr/lib64/libGL.so.1 *
(2) 打开容器后若无法输入,-t分配一个伪终端
--network=host 设置网络模式(bridge/host/自定义网络)。
--shm-size=16G 设置shm大小
--device=/dev/kfd 指定访问设备(DCU需要添加此选项)
--device=/dev/dri
--group-add video 设置用户权限组(需要使用DCU需要)。
--volume=/path/to/host:/hyal 将主机目录挂载到容器内
--cap-add SYS_PTRACE 启用PTrace权限
--security-opt seccomp=unconfined 安全配置(Seccomp=unconfined)
images.sourcefind.cn/deepai/base/vllm:0.8.5-duntu22.04-dtk26.04-py3.10 镜像地址
镜像组成
- 软件开发包:dk
- 驱动:vllm
- 软件:triton, lm-sys, flash-attn
chenwanhu
回复 @hujw:您好,1000l目前还不支持