HyperAI超神経
4日前

視覚言語行動モデルに関する調査:行動トークン化の観点から

Yifan Zhong, Fengshuo Bai, Shaofei Cai, Xuchuan Huang, Zhang Chen, Xiaowei Zhang, Yuanfei Wang, Shaoyang Guo, Tianrui Guan, Ka Nam Lui, Zhiquan Qi, Yitao Liang, Yuanpei Chen, Yaodong Yang
視覚言語行動モデルに関する調査:行動トークン化の観点から
要約

視覚と言語の基礎モデルにおける多モーダル理解、推論、生成の著しい進歩は、そのような知能を物理世界に拡張する取り組みを増やし、視覚-言語-行動(VLA)モデルの発展を促しています。多様なアプローチが存在するように見えるものの、我々は現在のVLAモデルが単一のフレームワークで統一できると観察しています。すなわち、視覚と言語の入力が一連のVLAモジュールによって処理され、より具体的かつ実行可能な情報を段階的にエンコードする行動トークンのチェーンが生成され、最終的には実行可能な行動を生成します。さらに、VLAモデルを区別する主要な設計選択肢は、行動トークンの定式化方法にあることを確認しました。これは言語記述、コード、操作可能性(affordance)、軌跡(trajectory)、目標状態(goal state)、潜在表現(latent representation)、原始的な行動(raw action)、推論に分類されます。しかし、行動トークンに関する包括的な理解が不足しており、有効なVLA開発を大幅に阻害し、将来の方向性を曖昧にしています。したがって、本調査では行動トークン化という観点から既存のVLA研究を分類し解釈することを目指し、各トークンタイプの強みと限界を抽出し、改善すべき領域を特定します。この系統的なレビューと分析を通じて、我々はVLAモデルの広範な進化について総合的な見通しを提供し、未開拓だが有望な方向性を強調するとともに、今後の研究に対するガイダンスを提供することで、この分野が汎用知能に近づくことを目指しています。