HyperAI超神经
Back to Headlines

新15亿参数模型Arch-Router:精准匹配用户意图,无需昂贵再训练

a day ago

7月7日,Katanemo Labs 研究团队推出了一款新的路由模型 Arch-Router,旨在解决企业多大型语言模型(LLM)系统中的一个关键难题:如何在不依赖刚性逻辑或昂贵重新训练的情况下,将用户查询智能地分配给最适合的任务模型。 随着 LLM 数量的增长,开发者们开始转向多模型系统,利用不同模型的独特优势来完成特定任务,如代码生成、文本摘要和图像编辑等。LLM 路由作为构建和部署这些系统的关键技术,就像一个交通控制器,指导每个用户查询到达最合适的模型。现有的路由方法主要分为两类:“基于任务的路由”和“基于性能的路由”。前者依赖于预定义任务,后者则追求成本与性能之间的最佳平衡。然而,基于任务的方法难以应对模糊或变动的用户意图,尤其是在多轮对话中;而基于性能的方法往往忽视现实中的用户偏好,对于新模型适应力较差,除非进行代价高昂的微调。 为了解决这些问题,Katanemo Labs 的研究人员提出了一种“偏好驱动路由”的框架,该框架能够根据用户定义的偏好将查询匹配到相应的路由策略。具体的实现方式是通过自然语言定义“领域-动作分类法”(Domain-Action Taxonomy),这是一个两层的层次结构,用以描述任务的一般主题(如“法律”或“金融”)及其具体任务(如“摘要”或“代码生成”)。这些策略随后会链接到特定的模型,使开发人员能够根据实际需求而非仅仅是基准测试分数来做出路由决策。 整个路由过程分为两个阶段。首先,偏好驱动的路由模型 Arch-Router 接收用户查询和完整的策略描述,选择最合适的策略。然后,映射函数将选定的策略与其指定的 LLM 连接起来。由于模型选择逻辑与策略分离,因此只需编辑路由策略即可轻松添加、移除或替换模型,无需重新训练路由模型本身,这在不断变化的实际部署中提供了极大的灵活性。 为了构建 Arch-Router,研究人员使用了 43,000 个精心挑选的数据样例对 Qwen 2.5 模型的 1.5B 参数版本进行了微调。测试结果显示,Arch-Router 在四个用于评估对话系统的公共数据集上达到了最高的总体路由得分,平均得分为 93.17%,超过了包括 OpenAI、Anthropic 和 Google 在内的顶级专有模型,显示出其在多轮对话中强大的上下文追踪能力。 Paracha 表示,尽管路由策略可能会很长,但可以通过增加 Arch-Router 的上下文窗口来最小化延迟影响。实际应用中,Arch-Router 已经被用于多个场景。例如,在开源编码工具中,开发者可以将不同工作流阶段(如“设计代码”、“理解代码”和“生成代码”)的请求分配到最适合的 LLM;在企业文档创建中,可以将请求路由到像 Claude 3.7 Sonnet 这样的模型,而将图像编辑任务交给 Gemini 2.5 Pro。 此外,这一框架还被用于各种领域的个人助理,帮助用户处理从文本摘要到事实查询的各种任务。Paracha 强调,Arch-Router 可以协助开发者统一并优化整体用户体验。 Katanemo Labs 的 AI 代理服务器 Arch 集成了这一框架,支持开发者实施复杂的流量整形规则。在引入新模型时,开发团队可以先将一小部分特定路由策略的流量发送到新模型,进行内部性能评估后,再全面过渡,确保迁移的顺利进行。公司还在努力与评估平台集成,进一步简化企业开发者的流程。 总体而言,Arch-Router 和 Arch 平台帮助企业从分散的 LLM 实施迈向统一、政策驱动的系统,特别是在任务多样化的场景下,它们能够将任务和 LLM 分散的情况转化为无缝衔接的用户体验。 业内专家对这一新技术表示高度赞赏,认为它不仅提升了路由效率和用户满意度,而且为企业提供了极大的灵活性。Katanemo Labs 是一家专注于对话系统和 LLM 路由技术的初创公司,此次成功推出 Arch-Router 标志着公司在这一领域的重大突破。

Related Links