Command Palette
Search for a command to run...
FoMER Benchマルチモーダル評価データセット
※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください。
FoMER ベンチは、モハメド ビン ザイード人工知能大学、リンショーピング大学、オーストラリア国立大学によって 2025 年にリリースされた Foundational Model Embodied Reasoning (FoMER) ベンチマークです。段階的な具体化推論における基礎モデルはどの程度優れているか?”は、複雑な具体化された意思決定シナリオにおける LMM の推論能力を評価することを目的としています。
このデータセットには1,100件以上の例が含まれており、10のタスクと8つの具体化推論タスクにわたる詳細な段階的推論を網羅しています。3種類のロボットタイプと複数のロボットモードを網羅しており、次のステップの行動予測、行動アフォーダンス、物理的常識、時間的推論、道具の使用と操作、リスク評価、ロボットナビゲーションなど、様々なタスクにおけるLLM能力の評価を可能にします。データには、多肢選択式質問(MCQ)、正誤問題(TF)、自由回答式質問が含まれています。各例には、入力観察(動画または画像フレーム+テキストプロンプト)、複数の候補行動、および対応する段階的推論トレースが付属しています。