
要約
視覚と言語の基礎モデルにおける多モーダル理解、推論、生成の著しい進歩は、そのような知能を物理世界に拡張する取り組みを増やし、視覚-言語-行動(VLA)モデルの発展を促しています。多様なアプローチが存在するように見えるものの、我々は現在のVLAモデルが単一のフレームワークで統一できると観察しています。すなわち、視覚と言語の入力が一連のVLAモジュールによって処理され、より具体的かつ実行可能な情報を段階的にエンコードする行動トークンのチェーンが生成され、最終的には実行可能な行動を生成します。さらに、VLAモデルを区別する主要な設計選択肢は、行動トークンの定式化方法にあることを確認しました。これは言語記述、コード、操作可能性(affordance)、軌跡(trajectory)、目標状態(goal state)、潜在表現(latent representation)、原始的な行動(raw action)、推論に分類されます。しかし、行動トークンに関する包括的な理解が不足しており、有効なVLA開発を大幅に阻害し、将来の方向性を曖昧にしています。したがって、本調査では行動トークン化という観点から既存のVLA研究を分類し解釈することを目指し、各トークンタイプの強みと限界を抽出し、改善すべき領域を特定します。この系統的なレビューと分析を通じて、我々はVLAモデルの広範な進化について総合的な見通しを提供し、未開拓だが有望な方向性を強調するとともに、今後の研究に対するガイダンスを提供することで、この分野が汎用知能に近づくことを目指しています。