Command Palette

Search for a command to run...

FoMER Benchマルチモーダル評価データセット

Discordコミュニティに参加

※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください

FoMER ベンチは、モハメド ビン ザイード人工知能大学、リンショーピング大学、オーストラリア国立大学によって 2025 年にリリースされた Foundational Model Embodied Reasoning (FoMER) ベンチマークです。段階的な具体化推論における基礎モデルはどの程度優れているか?”は、複雑な具体化された意思決定シナリオにおける LMM の推論能力を評価することを目的としています。

このデータセットには1,100件以上の例が含まれており、10のタスクと8つの具体化推論タスクにわたる詳細な段階的推論を網羅しています。3種類のロボットタイプと複数のロボットモードを網羅しており、次のステップの行動予測、行動アフォーダンス、物理的常識、時間的推論、道具の使用と操作、リスク評価、ロボットナビゲーションなど、様々なタスクにおけるLLM能力の評価を可能にします。データには、多肢選択式質問(MCQ)、正誤問題(TF)、自由回答式質問が含まれています。各例には、入力観察(動画または画像フレーム+テキストプロンプト)、複数の候補行動、および対応する段階的推論トレースが付属しています。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
FoMER Benchマルチモーダル評価データセット | データセット | HyperAI超神経