梁文锋署名！DeepSeek发表重磅论文：如何让大模型跑得更快

快科技6月28日报道，行业热议模型智能之争时，DeepSeek却专注于速度提升的现实挑战。前日，DeepSeek在Github发布了新论文，详解推理加速框架DSpark，旨在攻克大语言模型高并发下的效率难题。论文作者包含DeepSeek团队及北京大学研究人员，创始人梁文锋亦在列。

文中提及，团队已开源DSpark模型权重，并同步推出DeepSpec代码库，后者专注于推测解码和算法驱动训练。DeepSeek首先剖析了核心问题：大模型依赖自回归生成文本，每次新词元生成需完整前向传播全部前置词元，导致输出越长耗时越多。这一过程造成GPU利用率不足、用户等待时间延长，尤其在实时对话助手、多轮智能体场景中问题显著。

当前主流方案包括自回归草稿模型Eagle3与并行草稿模型DFlash。两种方法虽各有优势，却存在生成质量与系统效率双重瓶颈，且普遍缺少负载自适应校验功能。针对这些局限，DeepSeek创建了DSpark推测解码框架，采用半自回归架构。该设计融合并行主干的高吞吐特性，并增补轻量级串行模块，实现逐词元前缀依赖信息注入。模块提供马尔可夫头（依赖前一词元）与RNN头（累积完整前缀信息）两种实现方式。

实验数据证实，仅含两层Transformer的DSpark，其接受长度在所有测试领域中普遍超越五层DFlash。DSpark已集成DeepSeek-V4在线服务系统，经真实流量验证，性能表现优于MTP-1基线系统。相同吞吐量下，用户生成速度提升幅度达60%-85%。

进一步测试显示，DSpark对阿里Qwen系列模型效果显著。以Qwen3-4B、8B、14B为例，对比自回归草稿模型，单轮可接受词元长度分别提升30.9%、26.7%、30%；对比并行草稿模型，增幅分别为16.3%、18.4%、18.3%。

梁文锋署名！DeepSeek发表重磅论文：如何让大模型跑得更快

相关推荐

一台追觅吸尘器的“靠谱”，从马达的千锤百炼开始

稀疏盲解卷积计算自适应光学方法提升荧光显微成像质量

中国又一科技突破！海水制氢新技术，全球能源格局要改写？

日本人排大队抢购中国相机，很可能只是个开始……

长期刷短视频，会让人变“笨”吗？

Fable 5 内心「小作文」曝光，这次真不做人了