HyperAI超神経
Back to Headlines

1.5Bパラメータの新ルーティングモデル「Arch-Router」、93%の精度でユーザークエリを最適な言語モデルにマッピング

2日前

カタネモ・ラボズ、93%の精度を達成した新ルーティングモデル「アäch-Router」を発表 2025年7月7日、カタネモ・ラボズの研究者たちは、大規模言語モデル(LLM)向けの新たなルーティングモデルとフレームワーク「アrch-Router」を発表しました。このモデルは、複数のLLMを組み込んだ製品におけるクエリの最適なルーティングを実現し、高コストの再トレーニングを必要とせずに高い精度を維持することを目指しています。 LLMルーティングの課題 LLMの数が増え、開発者たちは単一モデルから多様な強みを持つ各モデルを特異なタスクに活用するマルチモデルシステムへと移行しています。LLMルーティングは、各クエリを最も適切なモデルへ案内する「交通制御所」のような役割を果たしますが、既存のルーティング方法には「タスクベース」と「パフォーマンスベース」の2種類があります。 タスクベースのルーティングは、あらかじめ定義されたタスクに基づいてクエリをルーティングしますが、ユーザーの意図が不明確或いは変化する場面で苦戦します。特にマルチターンの会話ではより顕著です。一方、パフォーマンスベースのルーティングはコストと性能のバランスを最適化しますが、実際のユーザープレファレンスを見逃しやすく、新しいモデルへの対応には大きなコストが必要となります。 これらの問題点を指摘した研究者は、現状のルーティング手法が「ベンチマークのパフォーマンスを最適化しつつ、主観的な評価基準に基づく人間の好みに対応できない」と述べています。彼らは、モデルや使用例が進化するにつれて、簡単に適応できるような柔軟性と透明性を備えたルーティングシステムの必要性を強調しています。 プレファレンスに合わせたルーティングフレームワーク これを解決するために、研究者たちは「プレファレンスに合わせたルーティング」フレームワークを提案しました。このフレームワークでは、ユーザーが自然言語で「ドメイン・アクション・タクソノミー」を使用してルーティングポリシーを定義します。このタクソノミーは2階層の階層構造で、一般的なトピック(ドメイン、例:「法務」や「金融」)から特定のタスク(アクション、例:「要約」や「コード生成」)へと絞り込みます。 各ポリシーは適当なLLMにリンクされ、開発者たちが実際のニーズに基づいてルーティング決定を行えるように設計されています。ルーティングプロセスは2段階で行われ、まずプレファレンスに合わせたルーターモデルがクエリを最も適切なポリシーにマッピングし、次にマッピング関数が該当するLLMに接続します。 モデル選択ロジックとポリシーは分離されているため、モデルの追加、削除、または交換はポリシーの編集だけで実現可能で、ルーター自体の再トレーニングは不要です。これにより、実用的な展開において必要となる柔軟性が確保されます。 アrch-Routerの技術的詳細 アrch-Routerは、43,000件のキュレーションデータセットで微調整された15億パラメータのQwen 2.5モデルを元にして構築されました。研究者たちは、その性能を4つの公用データセットで評価し、結果としてアrch-Routerは93.17%という最高のルーティングスコアを達成しました。これは、OpenAI、Anthropic、Googleの最高峰のプロプリエタリモデルを平均して7.71%上回る結果です。 長文の会話ほどその性能差は顕著に表れ、アrch-Routerは複数のターンにわたる対話のコンテクストを一貫して追跡できる能力を持っていることが示されました。ポリシーが入力の一環として含まれているため、システムは推論時にインコンテクスト学習を通じて新しいまたは変更されたルートに柔軟に対応できます。 実用的な適用例 現実の使用例として、オープンソースのコーディングツールでは、クエリが「コード設計」、「コード理解」、「コード生成」などの各段階で最適化されたモデルへ自動的にルーティングされるようになっています。また、企業では文書作成要求をClaude 3.7 Sonnetに、画像編集タスクをGemini 2.5 Proに分別して割り当てることができます。 個人アシスタントの分野でも、アrch-Routerは多様なタスク(要約、実質的な問い合わせなど)に一貫性のあるユーザー体験を提供することが可能だそうです。 カタネモ・ラボズは、このフレームワークを同社のAIネイティブプロキシサーバー「Arch」に統合しています。これにより、新規LLMの導入時には、特定のルーティングポリシーに対して少量のトラフィックを新しいモデルに流し、内部指標でその性能を確認した上で完全に移行することができます。 業界からの評価 「我々の目標は、断片化されたAI実装を統合し、ユーザータスクとLLMの断片化を克服することで、最終製品がユーザーにとってシームレスな体験となることです」と、Salman Paracha(カタネモ・ラボズ創業者兼CEO)は述べています。 カタネモ・ラボズは、この技術が企業のデベロッパーが複雑なトラffic-shapingルールを容易に実装できるようにすることで、より連携の取れた開発環境を提供するために努力を続けています。

Related Links