DFlash推测解码助力NVIDIA Blackwell推理性能提升15倍
加州大学圣地亚哥分校研究团队近日发布开源项目DFlash,一种面向大型语言模型推理优化的块扩散投机解码技术。针对自回归架构在低延迟并发场景下的显存与算力瓶颈,DFlash引入轻量级块扩散草稿模型,通过单次前向传播并行生成多个候选词块,再由目标模型进行并行验证,成功将顺序草稿转化为块级并行计算。 在NVIDIA Blackwell架构平台上,DFlash实现推理性能的重大突破。实测表明,在维持相同交互延迟标准下,该方案在gpt-oss-120b模型上的吞吐量较传统自回归解码提升最高达15倍,单批次并发下交互速度实现翻倍。对比当前主流EAGLE-3方案,DFlash在代码生成、逻辑推理及多语言处理等任务中均取得显著提速。 为降低企业接入门槛,研究团队已发布适配NVIDIA Blackwell与Hopper架构的二十个模型检查点,覆盖Llama、Qwen、Gemma等主流家族。依托NVIDIA生态协作,DFlash已深度整合至vLLM、SGLang及TensorRT-LLM框架。开发者无需重构业务代码,仅需切换配置文件即可调用DFlash草稿模型,快速激活底层硬件的并行计算潜能。该技术的开源与框架级落地,为高并发AI智能体调度与实时生成服务提供了兼具高吞吐与低延迟的标准化解决方案。
