OpenVLA:オープンソースのビジョン・ランゲージ・アクションモデル

インターネットスケールの視覚言語データと多様なロボットデモンストレーションを組み合わせて事前学習された大規模なポリシーは、ロボットに新しいスキルを教える方法を変える可能性を秘めています。新しい行動をゼロから訓練するのではなく、視覚言語行動(VLA)モデルを微調整することで、視覚運動制御に向けた堅牢で汎化性の高いポリシーを獲得することが可能になります。しかし、VLAのロボティクス分野への広範な導入は、以下の2つの課題により困難でした。1)既存のVLAモデルは大部分が閉鎖型であり、一般公開されていないこと、2)新しいタスク向けにVLAを効率的に微調整する手法の検討が不十分であったことです。これらの課題に対処するために、我々は97万件の現実世界のロボットデモンストレーションから構成される多様なデータセット上で学習された、70億パラメータのオープンソースVLA「OpenVLA」を紹介します。OpenVLAは、Llama 2言語モデルと、DINOv2およびSigLIPから得られる事前学習済み特徴を統合する視覚エンコーダーを組み合わせたアーキテクチャに基づいています。追加されたデータの多様性と新たなモデル構成により、OpenVLAは汎用的な操作タスクにおいて優れた性能を発揮し、29のタスクおよび複数のロボットエムボディメントにおいて、550億パラメータの閉鎖型モデルであるRT-2-Xを16.5%の絶対的なタスク成功率で上回りながら、パラメータ数は7倍少ないです。さらに、新しい設定への効果的な微調整が可能であることを示しており、複数の物体を含むマルチタスク環境において特に優れた汎化性能を発揮するとともに、強固な言語接地能力を備え、Diffusion Policyを含む従来のスクラッチからのイミテーション学習手法を20.4%の成功率向上で上回りました。また、計算効率についても検討を行い、別途の貢献として、現代の低ランク適応法(low-rank adaptation)を用いることで、コンシューマー用GPU上でOpenVLAの微調整が可能であり、量子化による効率的なサービングによって、下流タスクの成功率に影響を与えることなく運用できることを示しました。最後に、モデルのチェックポイント、微調整用ノートブック、およびOpen X-Embodimentデータセット上でVLAを大規模に学習できるように設計されたPyTorchコードベースを公開します。