清华大学计算机系计图团队实现华为昇腾上 DeepSeek 模型的适配和高效推理

2025.04.24 13:29

随着大语言模型在智能问答、代码生成等任务中的广泛应用,如何在国产算力平台上高效部署这些大模型,已成为推动人工智能自主创新生态建设的关键课题。DeepSeek系列大模型,包括DeepSeek V2、DeepSeek V3和DeepSeek R1等,在日常对话、复杂问题推理、代码生成等多个核心任务上展现出的卓越能力,使得围绕其推理效率提升与高效部署的研究日益成为业界关注的焦点。

近日,清华大学计算机系计图团队通过持续探索国产软硬件协同优化的技术路径,依托计图框架,围绕DeepSeek系列大模型开展全面的国产化适配工作,构建安全可控、性能优越的大模型国产部署解决方案,在成功适配华为昇腾910系列AI处理器的基础上,取得两项重大进展:一是,首次实现单台华为8卡昇腾服务器上的deepseek R1的推理。二是在不同请求下,相比vLLM(Ascend 版本),将Deepseek V2的推理性能平均提升53%以上。此项工作,进一步推进了DeepSeek系列大模型在昇腾平台上的高性能适配与加速优化,为国产大模型在国产硬件上的落地应用提供了支撑。

该项工作通过在算子实现、内存布局、并行策略、并发处理和低精度量化等方面的优化,完善了国产大模型推理部署的软硬件技术栈,显著降低了显存占用,为资源受限环境下的大模型部署提供了有效解决方案,成功实现了对DeepSeek R1模型在单机8卡昇腾硬件上的部署。实测数据表明,相比主流开源推理框架vLLM(Ascend版本),该框架运行DeepSeek系列模型的推理速度提升显著,针对不同的请求数,性能增幅达44.0% - 90.3%, 展现出强大的性能优势。同时,该推理框架不依赖Pytorch,是一套自主可控的优化方案。

华为 910系列-单卡DeepSeek V2-Lite 模型与vLLM 的速度对比

华为910系列-单机(8卡)DeepSeek V2模型与 vLLM 的速度对比

华为 910系列-单机(8卡)运行 DeepSeek R1 速度

该项目参考了ggml-org社区开源项目中的GGML和llama.cpp的算子实现,并得到南开大学程明明教授及其团队、华为海思研发团队、清华-华为鲲鹏昇腾卓越中心的大力支持。后续,计图团队将开源相关技术,与学术界和工业界共同推进国产人工智能生态建设。

关闭