Command Palette

Search for a command to run...

1ヶ月前

基礎モデルは段階的エムボディド推論においてどれほど優れているか?

Dinura Dissanayake Ahmed Heakl Omkar Thawakar Noor Ahsan et al

基礎モデルは段階的エムボディド推論においてどれほど優れているか?

要約

物理世界に存在するエンボディドエージェントは、効果的であるだけでなく、安全であり、空間的に一貫性を持ち、文脈に根ざした意思決定を行う必要がある。近年、大規模マルチモーダルモデル(LMMs)の進展により、視覚的理解や自然言語生成に関する有望な能力が示されているが、現実世界のエンボディドタスクに対する構造的推論能力についてはまだ十分に探求されていない。本研究では、基礎モデルがエンボディド環境において段階的推論をどの程度正確に行えるかを理解することを目的とする。そのため、複雑なエンボディド意思決定シナリオにおいてLMMの推論能力を評価するための「Foundation Model Embodied Reasoning(FoMER)」ベンチマークを提案する。本ベンチマークは、マルチモーダル観測の解釈、物理的制約や安全性に関する推論、自然言語による妥当な次行動の生成を要する多様なタスクを網羅している。本研究では、(i) エンボディド推論タスクを大規模かつ体系的に収集したセット、(ii) 感知的根拠(perceptual grounding)と行動推論を分離する新しい評価フレームワーク、(iii) 本設定下での主要なLMMの実証的分析の3点を提示する。本ベンチマークは、10のタスクと8種類のエージェント形態(3種類のロボットタイプをカバー)を対象に、1,100件以上のサンプルを含み、詳細な段階的推論を伴うデータを提供する。実験結果は、LMMのエンボディド推論における潜在能力と現時点での限界を浮き彫りにし、ロボットインテリジェンス分野における今後の研究における重要な課題と機会を示唆している。本研究で使用したデータとコードは、公開予定である。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています