Command Palette
Search for a command to run...
VLA-Adapter:微小スケール視覚言語行動モデルにおける効果的なパラダイム
VLA-Adapter:微小スケール視覚言語行動モデルにおける効果的なパラダイム
概要
ビジョン・ランゲージ・アクション(VLA)モデルは、ロボットデータ上で大規模なビジョン・ランゲージモデル(VLM)を事前学習することで、知覚空間と行動空間のギャップを埋めるのが一般的である。このアプローチは性能を大幅に向上させるが、同時に大きな学習コストを伴う。本論文では、視覚言語(VL)表現と行動(A)との間を効果的に橋渡しする方法について検討する。そこで、VLAモデルが大規模なVLMや広範な事前学習に依存することを軽減するための新規パラダイムである「VLA-Adapter」を提案する。まず、さまざまなVL条件の有効性を体系的に分析し、知覚空間と行動空間を橋渡しする上で本質的な条件についての重要な知見を提示する。これらの知見をもとに、ブリッジアテンション(Bridge Attention)を備えた軽量なポリシー(Policy)モジュールを提案する。このモジュールは、最適な条件を自動的に行動空間に注入する。これにより、本手法はロボットデータを用いた事前学習なしに、わずか0.5Bパラメータのバックボーンのみで高い性能を達成する。シミュレート環境および現実世界のロボットベンチマークにおいて行われた広範な実験の結果、VLA-Adapterは最先端の性能を達成するだけでなく、これまでに報告された中で最も高速な推論速度を実現している。さらに、提案する高度な橋渡しパラダイムのおかげで、単一のコンシューマー向けGPU上でわずか8時間の学習で強力なVLAモデルを構築可能となり、VLAモデルの実装・展開にかかる障壁を大きく低減した。プロジェクトページ:https://vla-adapter.github.io/