Galileo AI、5業界で言語モデルの性能を評価する新フレームワークを発表
エンタープライズAIエージェントのための言語モデル評価フレームワーク ガリレオAI社は、さまざまな言語モデルの性能を評価するAIエージェントフレームワーク「Agent Leaderboard V2」を作成しました。このフレームワークは、銀行、ヘルスケア、保険、投資、テレコムの5つの業界での言語モデルのパフォーマンスをテストします。評価基準は、行動完了率(Action Completion: AC)とツール選択品質(Tool Selection Quality: TSQ)であり、同一の標準化された環境とセットアップで一貫して実施されます。 ユーザーとツールのシミュレータを含む、カスタム実装された Simulation Pipeline を使用した評価により、模型間の公平な比較と再現性が担保されています。各モデルは、利用可能なツールのJSONスキーマによる基本的なシステムプロンプトのみを与えられ、複数ターンのダイアログと互いに関連したユーザーの目的に対応できるように設計されています。これにより、モデルは以前のインタラクションやツールの出力に基づいて適応し、複雑なシナリオでも高いパフォーマンスを発揮できます。 主な評価項目 アクション完了率 (Action Completion): モデルがユーザーからの要求に対して正しいアクションを完了できるかどうか。 ツール選択品質 (Tool Selection Quality): モデルが適切なツールを選択できるかどうか。 レイテンシ (Latency): レスポンスタイムの速さ。 コスト (Cost): 使用料金。 対話ターン数 (Turns): 対話の交渉回数。 これらの基準により、各業界における言語モデルのパフォーマンスを総合的に評価します。オープンソースモデルが上位3位を占めているのは興味深い事実で、このコードが公開されていることから、建設者は独自のテストやベンチマークを実行することができます。 最新の研究動向 最近、特定のモデルが特定のAIエージェントフレームワークにおいて優れた性能を発揮することが研究で示されています。これはモデルがそのフレームワークに適合していることを示唆しており、選択する際に考慮するべき要素の一つかとも言えます。また、商用言語モデルがAIエージェントフレームワークやSDK领域へ進出しているのが目に見えています。組織がSDKや基本フレームワークを使用すると、その動作環境がモデルに最適化されると推測されます。 未来の展望 未来は小さくて継続的にチューニングされる言語モデルと多モデルのオーケストレーション環境になると考えられています。NVIDIAもツール選択における言語モデルのファインチューニングの重要性を強調しています。 業界の反応 コアAIのチーフエヴァンジェリストは、「このフレームワークによって、AIと言語の交差点を探求する機会が増えました。言語モデル、AIエージェント、能動的なアプリケーションや開発フレームワーク、データ主導型の生産性ツールについての洞察やアイデアを共有しています」と述べています。ガリレオAI社は、AIエージェントにおける最新の進展を捉えるために、コミュニティへのオープンアクセスと協力を重視しています。 Galileo AI について: Galileo AIは、AIエージェントの開発と性能評価に特化したエンタープライズ向けAIプラットフォームを提供する企業です。開発者や企業が、複雑な業務フローを自動化し、より高度なAIサービスを展開するための支援を行っています。公式 GitHub リポジトリと Hugging Face ページでは、Simulation Pipeline の全コードベースとデータセットが公開されており、任何人でも利用可能です。