HyperAIHyperAI

Command Palette

Search for a command to run...

EmbRACE-3K: 複雑な環境における身体化された推論と行動

Mingxian Lin Wei Huang Yitang Li Chengjie Jiang Kui Wu Fangwei Zhong Shengju Qian Xin Wang Xiaojuan Qi

概要

最近の高度なビジョン言語モデル(VLMs)は、受動的なオフライン画像およびビデオ理解タスクにおいて優れた性能を示しています。しかし、オンラインでの相互作用と能動的なシーン理解が求められる具現化された設定では、その効果は限定的です。このようなシナリオでは、エージェントは第一人称視点から環境を認識し、各行動がその後の観測を動的に形成します。GPT-4o、Claude 3.5 Sonnet、Gemini 2.5 Proなどの最先端モデルでさえも、オープン環境での相互作用において空間推論や長期計画に明確な制限を示しています。このギャップに対処するため、我々はEmRACE-3Kというデータセットを導入します。これは、Unreal EngineとUnrealCV-Zooフレームワークを使用して構築された多様で写実的な環境における3,000以上の言語ガイド付きタスクを含んでいます。これらのタスクには、ナビゲーション、物体操作、複数ステージの目標達成など、幅広い具現化チャレンジが含まれています。各タスクはマルチステップの軌跡として展開され、第一人称視覚観測と高レベルの指示、接地した行動、そしてエージェントの意図を表現する自然言語による理由付けが組み合わされています。EmRACE-3Kを使用して、VLMsの具現化推論能力を評価するベンチマークを設けました。このベンチマークは探索(Exploration)、動的空間意味推論(Dynamic Spatial-Semantic Reasoning)、複数ステージ目標達成(Multi-stage Goal Execution)という3つの主要次元に焦点を当てています。ゼロショット設定では、すべてのモデルが20%未満の成功率しか達成できず、我々のベンチマークが課す挑戦とインタラクティブ環境におけるVLMsの現在の制限が強調されています。EmRACE-3Kの有用性を示すために、さらにQwen2.5-VL-7Bを教師あり学習に続いて強化学習で微調整しました。このアプローチにより、3つのチャレンジカテゴリー全てにおいて大幅な改善が見られました。これによりデータセットが具現化推論能力の開発に有効であることが明らかになりました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています