Command Palette
Search for a command to run...
Moritz Reuss Hongyi Zhou Marcel Rühle Ömer Erdinç Yağmurlu Fabian Otto Rudolf Lioutikov

要約
効率的な視覚-言語-行動(VLA)ポリシーの開発は、実用的なロボットの展開において極めて重要であるが、現行のアプローチは計算コストとリソース要件が著しく高いため、実用化に課題を抱えている。従来の拡散モデルを基盤とするVLAポリシーは、優れた性能を発揮するためには数十億パラメータを有する大規模モデルと膨大なデータセットを必要としている。本研究では、この効率性の課題に二つの貢献を通じて対応する。第一に、中間モダリティ統合(intermediate-modality fusion)という手法により、LLMの層の最大50%を削除することで、拡散ヘッドにリソースを再配分する。第二に、行動固有のグローバル・アダプティブ・レート・ノルム(Global-AdaLN)条件付けを導入し、モジュール単位での適応によってパラメータ数を20%削減する。これらの技術を統合し、9.5億パラメータ(950 M)を有する新規VLAモデル「FLOWER」を構築した。FLOWERはわずか200 H100 GPU時間で事前学習が可能であり、10のシミュレーションおよび現実世界のベンチマークで合計190のタスクにおいて、より大規模なVLAモデルと比較して競争力ある性能を示すとともに、多様なロボットエムブレッド(embodiment)においても堅牢性を発揮する。さらに、CALVIN ABCベンチマークにおいて4.53という新たなSOTA(最先端)スコアを達成した。デモ、コード、事前学習済み重みは、https://intuitive-robots.github.io/flower_vla/ にて公開されている。