HyperAI

在预算约束下，自适应大语言模型（LLM）路由机制面临核心挑战：如何在模型能力各异、成本不一的情况下，为每个任务动态选择最优模型。传统方法通常将该问题视为监督学习，依赖预先标注的最优模型-查询配对，但现实中缺乏完整映射，且用户需求持续变化。为此，本文提出将LLM路由建模为上下文多臂老虎机（contextual bandit）问题，通过在线反馈实现自适应决策，无需对所有查询穷举测试所有模型，显著降低计算开销。为此，研究构建了一个共享嵌入空间，将查询与LLM映射到同一向量空间，通过嵌入间的相似度反映其匹配度。该空间首先基于离线的人类偏好数据进行预训练，随后通过在线老虎机反馈持续优化。基于此思想，作者提出PILOT（Preference-prior Informed LinUCB for adaptive routing），一种面向LLM路由的新型LinUCB扩展方法，有效融合先验偏好信息与在线学习能力。为应对用户多样化的预算限制，研究进一步引入一种在线成本策略，将其建模为多选背包问题，实现资源受限下的高效路由决策。该方法在保证性能的同时，显著提升成本效益。实验表明，PILOT在多种真实场景下均优于现有监督学习与基线bandit方法，尤其在数据稀缺和动态变化环境中表现突出。该工作已被EMNLP 2025（Findings）录用，为实际部署中高效、经济地使用多模型系统提供了新范式。

相关链接

相关链接

相关链接

在线教程丨 Qwen3.5 27B 蒸馏 Claude 4.6 Opus 推理能力，兼顾高质量输出与低门槛部署

在线教程丨 Qwen3.5 27B 蒸馏 Claude 4.6 Opus 推理能力，兼顾高质量输出与低门槛部署

Command Palette

预算受限下的智能大模型动态调度新范式

相关链接

Command Palette

预算受限下的智能大模型动态调度新范式

相关链接

Command Palette

预算受限下的智能大模型动态调度新范式

相关链接

在线教程丨 Qwen3.5 27B 蒸馏 Claude 4.6 Opus 推理能力，兼顾高质量输出与低门槛部署

在线教程丨 Qwen3.5 27B 蒸馏 Claude 4.6 Opus 推理能力，兼顾高质量输出与低门槛部署