快科技6月28日报道,行业热议模型智能之争时,DeepSeek却专注于速度提升的现实挑战。前日,DeepSeek在Github发布了新论文,详解推理加速框架DSpark,旨在攻克大语言模型高并发下的效率难题。论文作者包含DeepSeek团队及北京大学研究人员,创始人梁文锋亦在列。
文中提及,团队已开源DSpark模型权重,并同步推出DeepSpec代码库,后者专注于推测解码和算法驱动训练。DeepSeek首先剖析了核心问题:大模型依赖自回归生成文本,每次新词元生成需完整前向传播全部前置词元,导致输出越长耗时越多。这一过程造成GPU利用率不足、用户等待时间延长,尤其在实时对话助手、多轮智能体场景中问题显著。
当前主流方案包括自回归草稿模型Eagle3与并行草稿模型DFlash。两种方法虽各有优势,却存在生成质量与系统效率双重瓶颈,且普遍缺少负载自适应校验功能。针对这些局限,DeepSeek创建了DSpark推测解码框架,采用半自回归架构。该设计融合并行主干的高吞吐特性,并增补轻量级串行模块,实现逐词元前缀依赖信息注入。模块提供马尔可夫头(依赖前一词元)与RNN头(累积完整前缀信息)两种实现方式。
实验数据证实,仅含两层Transformer的DSpark,其接受长度在所有测试领域中普遍超越五层DFlash。DSpark已集成DeepSeek-V4在线服务系统,经真实流量验证,性能表现优于MTP-1基线系统。相同吞吐量下,用户生成速度提升幅度达60%-85%。
进一步测试显示,DSpark对阿里Qwen系列模型效果显著。以Qwen3-4B、8B、14B为例,对比自回归草稿模型,单轮可接受词元长度分别提升30.9%、26.7%、30%;对比并行草稿模型,增幅分别为16.3%、18.4%、18.3%。






