一般化ロボット方策への道:視覚・言語・行動モデル構築における重要な要素

基礎となる視覚言語モデル(VLM)は、マルチモーダル表現学習、理解、推論において優れた能力を示す。これに行動コンポーネントを組み込むことで、自然に視覚言語行動モデル(VLA)が構築可能となり、その性能も有望である。既存の研究では、VLAが複数のシナリオやタスクにおいて有効性と汎化能力を示していることが実証されている。しかし、VLMからVLAへの移行は容易ではない。なぜなら、既存のVLAはバックボーンの構造、行動予測の定式化、データ分布、トレーニング手法において多様性を示しており、その結果、VLAの設計選択に関する体系的な理解が欠けている状況にある。本研究では、VLAの性能に顕著な影響を与える主要な要因を明らかにし、以下の3つの本質的な設計選択に関する問いに焦点を当てる:どのバックボーンを選定すべきか、VLAアーキテクチャをどのように定式化すべきか、そしてクロスエムボディメントデータをいつ追加すべきか。得られた結果は、VLAの必要性を明確に説明し、手動による設計を極力必要とせず、3つのシミュレーションタスクおよび現実世界の実験において最先端の性能を達成する新たなVLAの族、RoboVLMsを構築する根拠を強く支持する。本研究では、8種類以上のVLMバックボーン、4種類のポリシーアーキテクチャ、600を超える異なる設計実験を含む広範な実験を通じて、今後のVLA設計に向けた詳細なガイドブックを提供する。さらに、本研究の成果として、新たなVLMの容易な統合とさまざまな設計選択の自由な組み合わせを可能にする、非常に柔軟なRoboVLMsフレームワークを公開する。すべての詳細——コード、モデル、データセット、ツールキットに加え、詳細なトレーニングおよび評価手法——は、robovlms.github.ioにてオープンソースとして提供される。