
要約
汎用的なビジョン・言語・アクション(VLA)モデルの成功は、大規模かつ多様な身体構造(エミボディメント)を持つロボットプラットフォーム間で効果的な学習を実現することに依存しており、そのために異種で豊富なロボットデータセットの活用が不可欠である。このような豊富かつ多様なロボットデータソースにおける異質性を促進し活用するため、我々は新たな「ソフトプロンプト(Soft Prompt)」手法を提案する。この手法は、プロンプト学習の概念を異種エミボディメント間のロボット学習に組み込み、各異なるデータソースに対して個別に学習可能な埋め込み(embedding)を導入することで、最小限の追加パラメータで実現される。これらの埋め込みは、身体構造に特化したプロンプトとして機能し、統合されることでVLAモデルが異なるエミボディメント特徴を効果的に活用できるようにする。本研究では、新たなX-VLAと呼ばれるVLAアーキテクチャを提案する。これは、シンプルかつスケーラブルな特徴を持つ、流体マッチング(flow-matching)に基づくアーキテクチャであり、標準的なTransformerエンコーダにソフトプロンプトのみを適用することで構成される。6つのシミュレーションおよび3台の実機ロボットを対象とした評価において、0.9Bパラメータ規模のX-VLA-0.9Bは、広範なベンチマークにおいてSOTA(最先端)性能を同時に達成しており、柔軟な機敏性から、異なるエミボディメント、環境、タスクへの迅速な適応まで、多様な能力軸において優れた成果を示した。