4ヶ月前

Routoo: 大規模言語モデルへの効果的なルーティングを学ぶ

Alireza Mohammadshahi; Arshad Rafiq Shaikh; Majid Yazdani
Routoo: 大規模言語モデルへの効果的なルーティングを学ぶ
要約

優れた応答品質を持つ大規模言語モデル(LLM)--特に大規模なまたはクローズドソースのモデル--はしばしば高い推論コストを伴い、その導入は非効率的かつ高価となる傾向があります。一方、基礎的なLLMをゼロから開発することは、多くのアプリケーションにとってますますリソース集約的で実現困難となっています。品質とコストのバランスを取る課題に対処するため、私たちはRoutooというアーキテクチャを提案します。Routooは、パフォーマンス、コスト、効率に基づいて特定のプロンプトに最適なLLMを選択する設計になっています。Routooは推論コストと品質のトレードオフを制御可能にし、一定の品質要件のもとで大幅な推論コスト削減を可能にします。Routooは2つの主要なコンポーネントで構成されています:パフォーマンス予測器とコスト意識型選択器です。パフォーマンス予測器は軽量なLLMであり、特定のプロンプトに対して様々な基盤となるLLMが期待されるパフォーマンスを予測します(ただし、それらを実行せずに)。その後、コスト意識型選択器モジュールはこれらの予測とコストやレイテンシなどの制約条件に基づいて最も適切なモデルを選択し、同じ品質での推論コストを大幅に削減します。私たちは57の領域でオープンソースモデルを使用してMMLUベンチマークによりRoutooを評価しました。結果は、RoutooがMixtral 8x7bモデルと同じパフォーマンスを達成しながら推論コストを3分の1削減できることを示しています。さらに、コスト増加を許容することで、Routooは同等のコストでMixtralよりも5%以上の精度向上を達成し、75.9%の精度を記録しました。GPT4をモデルプールに統合した場合でも、RoutooはGPT4の性能にほぼ匹敵し半分以下のコストで動作し、25%のコスト削減ではGPT4を超える性能を発揮しました。これらの結果は、Routooが品質を損なうことなく大幅な推論コスト削減を行う潜在能力があることを示しており、複数のLLMの集団的能力を利用することで新たな最先端結果の確立も可能であることを示唆しています。