HyperAIHyperAI

Command Palette

Search for a command to run...

预算受限下的智能大模型动态调度新范式

在预算约束下,自适应大语言模型(LLM)路由机制面临核心挑战:如何在模型能力各异、成本不一的情况下,为每个任务动态选择最优模型。传统方法通常将该问题视为监督学习,依赖预先标注的最优模型-查询配对,但现实中缺乏完整映射,且用户需求持续变化。为此,本文提出将LLM路由建模为上下文多臂老虎机(contextual bandit)问题,通过在线反馈实现自适应决策,无需对所有查询穷举测试所有模型,显著降低计算开销。 为此,研究构建了一个共享嵌入空间,将查询与LLM映射到同一向量空间,通过嵌入间的相似度反映其匹配度。该空间首先基于离线的人类偏好数据进行预训练,随后通过在线老虎机反馈持续优化。基于此思想,作者提出PILOT(Preference-prior Informed LinUCB for adaptive routing),一种面向LLM路由的新型LinUCB扩展方法,有效融合先验偏好信息与在线学习能力。 为应对用户多样化的预算限制,研究进一步引入一种在线成本策略,将其建模为多选背包问题,实现资源受限下的高效路由决策。该方法在保证性能的同时,显著提升成本效益。实验表明,PILOT在多种真实场景下均优于现有监督学习与基线bandit方法,尤其在数据稀缺和动态变化环境中表现突出。 该工作已被EMNLP 2025(Findings)录用,为实际部署中高效、经济地使用多模型系统提供了新范式。

相关链接

预算受限下的智能大模型动态调度新范式 | 热门资讯 | HyperAI超神经