13日前

FLOWER：効率的な視覚-言語-行動フロー方策による汎用ロボット方策の民主化

Moritz Reuss Hongyi Zhou Marcel Rühle Ömer Erdinç Yağmurlu Fabian Otto Rudolf Lioutikov

要約

効率的な視覚-言語-行動（VLA）ポリシーの開発は、実用的なロボットの展開において極めて重要であるが、現行のアプローチは計算コストとリソース要件が著しく高いため、実用化に課題を抱えている。従来の拡散モデルを基盤とするVLAポリシーは、優れた性能を発揮するためには数十億パラメータを有する大規模モデルと膨大なデータセットを必要としている。本研究では、この効率性の課題に二つの貢献を通じて対応する。第一に、中間モダリティ統合（intermediate-modality fusion）という手法により、LLMの層の最大50％を削除することで、拡散ヘッドにリソースを再配分する。第二に、行動固有のグローバル・アダプティブ・レート・ノルム（Global-AdaLN）条件付けを導入し、モジュール単位での適応によってパラメータ数を20％削減する。これらの技術を統合し、9.5億パラメータ（950 M）を有する新規VLAモデル「FLOWER」を構築した。FLOWERはわずか200 H100 GPU時間で事前学習が可能であり、10のシミュレーションおよび現実世界のベンチマークで合計190のタスクにおいて、より大規模なVLAモデルと比較して競争力ある性能を示すとともに、多様なロボットエムブレッド（embodiment）においても堅牢性を発揮する。さらに、CALVIN ABCベンチマークにおいて4.53という新たなSOTA（最先端）スコアを達成した。デモ、コード、事前学習済み重みは、https://intuitive-robots.github.io/flower_vla/ にて公開されている。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

FLOWER：効率的な視覚-言語-行動フロー方策による汎用ロボット方策の民主化

Moritz Reuss Hongyi Zhou Marcel Rühle Ömer Erdinç Yağmurlu Fabian Otto Rudolf Lioutikov

要約

AI で AI を構築

Hyper Newsletters