HyperAI超神经

Group Think: 多智能体在 Token 级粒度下并行协作进行推理

Chan-Jan Hsu, Davide Buffelli, Jamie McGowan, Feng-Ting Liao, etc
发布日期: 5/20/2025
Group Think: 多智能体在 Token 级粒度下并行协作进行推理
摘要

近年来,大语言模型(LLMs)在借助自我生成的“思维链”(Chain-of-Thought)进行推理方面展现出强大能力。多个推理智能体的协作可以将整体推理质量提升到超越单一模型的水平。然而,这些智能体通常以回合制的方式交互,尽管提升了质量,但也带来了更高的延迟。 在本文中,我们提出了 Group Think —— 一种由单个 LLM 扮演多个并发推理智能体(即“思考者”)的框架。通过共享彼此的部分生成进度,Group Think 引入了一种新的并发推理范式:多个推理路径在 token 级粒度下动态相互适应。 例如,某条推理路径可以在句中途转向,让位于另一条在上下文中更合适的推理线程继续生成。这种细粒度的 token 级协作,既减少了冗余推理,也提升了生成质量,同时显著降低了延迟。 此外,由于具备并发特性,Group Think 能高效利用空闲的计算资源,特别适用于边缘设备推理场景,在这些场景中,极小的 batch size 通常会导致本地 GPU 资源的浪费。我们提供了一种简单且通用的改动方式,使任意现有的 LLM 都可以在本地 GPU 上运行 Group Think。我们还提出了一种评估策略,用于基准测试推理延迟,并在多个未针对 Group Think 特别训练的开源 LLM 上实证展示了延迟改进。我们希望本研究能够为未来 LLMs 的更高效、更复杂的协作式生成行为铺平道路,推动生成质量进一步提升。