HyperAIHyperAI

Command Palette

Search for a command to run...

SPEED-Bench:统一且多样的推测性解码评测基准

针对大语言模型推理加速中的投机解码(SD)技术,现有评估方法存在数据单一、无法反映真实生产环境等缺陷。为此,研究团队推出了 SPEED-Bench,这是一个统一且多样化的评测基准,旨在全面评估投机解码在不同语义领域和真实服务场景下的表现。 SPEED-Bench 由数据划分和统一测量框架组成。数据方面,它包含两个核心数据集:一是“质量划分”,涵盖编码、数学、写作等 11 个领域的 880 个提示词,通过算法最大化语义多样性,以准确测量不同领域的猜测质量;二是“吞吐量划分”,构建了一系列从 1k 到 32k 标记长度的输入序列桶,模拟高并发和长上下文的生产负载,用于评估系统级加速效果。测量框架方面,该基准整合了 TensorRT-LLM、vLLM 等主流推理引擎,通过预先分词和统一格式化输入,消除了不同引擎间的处理差异,确保评估结果的公平性。 评测结果揭示了投机解码的深层规律。首先,猜测质量高度依赖语义领域,编码和数学等低熵领域效果显著,而角色扮演和写作等高熵领域则较难预测。其次,简单的随机 token 测试会严重高估吞吐量,可能产生超过 20% 的误差,且无法真实触发模型专家路由机制。此外,过度的词表剪枝优化虽然能降低计算成本,但会导致长尾输入领域的猜测长度大幅下降。 SPEED-Bench 的发布为学术界和工业界提供了一个标准化的评估工具,有助于 researchers 更准确地分析投机解码算法在真实部署中的性能瓶颈与优势,推动该技术更稳健地应用于实际生产环境。目前,相关数据集和测量框架已开源,支持直接集成到现有的投机解码实现中。

相关链接

SPEED-Bench:统一且多样的推测性解码评测基准 | 热门资讯 | HyperAI超神经