Command Palette

Search for a command to run...

21 天前

将测试时计算最优缩放泛化为可优化图

Fali Wang Jihai Chen Shuhua Yang Runxue Bao Tianxiang Zhao Zhiwei Zhang Xianfeng Tang Hui Liu Qi He Suhang Wang

将测试时计算最优缩放泛化为可优化图

摘要

测试时扩展(Test-Time Scaling, TTS)通过在推理阶段分配额外计算资源来提升大语言模型(Large Language Models, LLMs)的性能,通常采用并行、串行或混合式的扩展策略。然而,以往研究往往假设协作架构(如拓扑结构)是固定的,并且仅使用单一模型,忽略了最优架构与模型组合可能因任务而异这一关键事实。因此,本文研究在固定计算预算下,如何搜索实现计算效率最优的模型组合与架构配置这一新问题。我们将其形式化为一个多LLM协作图模型,其中节点表示角色与LLM模型的分配,边则刻画信息流动关系。该问题具有挑战性,主要体现在两个方面:(i)组合搜索空间规模巨大,难以穷举;(ii)不同任务对系统设计有特定需求,需定制化建模。为应对上述挑战,我们提出将问题重新建模为概率图优化问题,并通过初步实验总结出关于TTS协作图的三条经验性规律。基于这些规律,我们进一步提出Agent-REINFORCE——一种由LLM智能体增强的框架,其设计灵感来源于REINFORCE算法的典型流程,将“采样-梯度更新”映射为“采样-反馈更新”,其中反馈以文本形式作为“梯度”来指导概率图的更新,从而高效搜索最优的多LLM协作图结构。实验结果表明,Agent-REINFORCE在样本效率和搜索性能方面均显著优于传统方法与基于LLM的基线方法,并能有效在准确率与推理延迟的联合目标下识别出最优协作图。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
将测试时计算最优缩放泛化为可优化图 | 论文 | HyperAI超神经