Command Palette
Search for a command to run...

要約
開かれた世界において、マルチモーダルな推論と物理的インタラクションを円滑に実行する人間の能力は、汎用的エムブデッド知能システムの核心的な目標である。近年、大規模なロボットデータおよび視覚・テキストデータを統合的に学習させた視覚言語行動(VLA)モデルが、汎用ロボット制御において顕著な進展を示している。しかし、依然として、視覚・言語・行動の混合推論とインタラクションにおいて人間レベルの柔軟性を達成できていない。本研究では、EO-1モデルとEO-Data1.5Mデータセットから構成される「EO-Robotics」を提案する。EO-1は、視覚・テキスト・行動の混合事前学習を通じて、マルチモーダルなエムブデッド推論およびロボット制御において優れた性能を達成する統合型エムブデッド基礎モデルである。EO-1の開発は以下の2つの柱に基づいている:(i)画像、テキスト、動画、行動といったマルチモーダル入力を一貫して処理可能な統合アーキテクチャ、および(ii)視覚・言語・行動の混合理解に重点を置いた、150万件を超えるサンプルを含む大規模かつ高品質なマルチモーダルエムブデッド推論データセット「EO-Data1.5M」。EO-1は、EO-Data1.5M上で自己回帰的デコードとフローマッチングノイズ除去の相互作用を活用して学習され、ロボット行動のシームレスな生成とマルチモーダルなエムブデッド推論を可能にしている。多数の長時間スパン・高精度な操作タスク(複数のエムブデッド形態で実施)を用いた広範な実験により、開かれた世界における理解力と一般化能力の向上において、視覚・言語・行動の混合学習の有効性が実証された。本論文では、EO-1のアーキテクチャ、EO-Data1.5Mのデータ構築戦略、および学習手法について詳細に述べ、高度なエムブデッド基礎モデルの開発に向けた貴重な知見を提供する。