一般的な人工知能アシスタント用の GAIA ベンチマーク データセット
2024 年に Meta、HuggingFace、AutoGPT が共同で開始した GAIA は、エージェント向けの最も包括的なベンチマーク テストです。関連する論文結果は「GAIA: 一般的な AI アシスタントのベンチマーク”。
GAIA は 450 を超える複雑な質問で構成されており、それらの質問には明確な回答があり、解決にはさまざまなレベルのツールと自主性が必要です。したがって、レベル 1 は非常に優れた LLM によって克服でき、レベル 3 はモデルの機能が大幅に向上していることを示します。各レベルは、検証用の完全に公開された開発セットと、プライベートな回答とメタデータを含むテスト セットに分割されます。
質問はmetadata.jsonlに含まれています。一部の質問には追加ファイルが付属しています。このファイルは同じフォルダー内にあり、その ID はフィールド file_name に指定されています。詳細については、紙で発表されました。
難しい問題の例を次に示します。
2008 年の絵画「ウズベキスタンの刺繍」に描かれている果物のうち、後に映画「最後の航海」で浮遊小道具として使用された 1949 年 10 月の遠洋定期船の朝食メニューの一部であったものはどれですか?これらの果物を、絵の中の配置に従って、12 時の位置から時計回りにコンマ区切りのリストとして入力してください。それぞれの果物の複数形を使用します。
この問題にはいくつかの困難が伴うことがわかります。
- 制約された形式で回答してください。
- 画像から果物を読み取るには、マルチモーダル機能が必要です。
- 複数の情報を収集する必要がありますが、その一部は他の情報に依存します。
- 写真の中の果物
- 『最後の航海』で浮遊小道具として使われた遠洋定期船の正体
- 上記は1949年10月のオーシャンライナーの朝食メニュー
- 上記では、正しい解決策のパスに複数の連鎖したステップの使用が強制されます。
この問題を解決するには、高度な計画能力と厳密な実行が必要ですが、LLM が対処するのがまさにこの 2 つの分野です。
したがって、エージェント システムをテストするための優れたテスト セットです。 GAIA の公開ランキングでは、GPT-4-Turbo の平均スコアは 7% 未満です。申請のトップは、複雑なマルチエージェント システムを使用し、OpenAI のツール呼び出し機能を活用した Autogen ベースのソリューションで、40% に達しました。