Command Palette

Search for a command to run...

13日前

FLOWER:効率的な視覚-言語-行動フロー方策による汎用ロボット方策の民主化

Moritz Reuss Hongyi Zhou Marcel Rühle Ömer Erdinç Yağmurlu Fabian Otto Rudolf Lioutikov

FLOWER:効率的な視覚-言語-行動フロー方策による汎用ロボット方策の民主化

要約

効率的な視覚-言語-行動(VLA)ポリシーの開発は、実用的なロボットの展開において極めて重要であるが、現行のアプローチは計算コストとリソース要件が著しく高いため、実用化に課題を抱えている。従来の拡散モデルを基盤とするVLAポリシーは、優れた性能を発揮するためには数十億パラメータを有する大規模モデルと膨大なデータセットを必要としている。本研究では、この効率性の課題に二つの貢献を通じて対応する。第一に、中間モダリティ統合(intermediate-modality fusion)という手法により、LLMの層の最大50%を削除することで、拡散ヘッドにリソースを再配分する。第二に、行動固有のグローバル・アダプティブ・レート・ノルム(Global-AdaLN)条件付けを導入し、モジュール単位での適応によってパラメータ数を20%削減する。これらの技術を統合し、9.5億パラメータ(950 M)を有する新規VLAモデル「FLOWER」を構築した。FLOWERはわずか200 H100 GPU時間で事前学習が可能であり、10のシミュレーションおよび現実世界のベンチマークで合計190のタスクにおいて、より大規模なVLAモデルと比較して競争力ある性能を示すとともに、多様なロボットエムブレッド(embodiment)においても堅牢性を発揮する。さらに、CALVIN ABCベンチマークにおいて4.53という新たなSOTA(最先端)スコアを達成した。デモ、コード、事前学習済み重みは、https://intuitive-robots.github.io/flower_vla/ にて公開されている。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
FLOWER:効率的な視覚-言語-行動フロー方策による汎用ロボット方策の民主化 | 論文 | HyperAI超神経