19時間前
自動運転向けのビジョン-言語-行動モデルに関する調査
Sicong Jiang, Zilin Huang, Kangan Qian, Ziang Luo, Tianze Zhu, Yang Zhong, Yihong Tang, Menglin Kong

要約
多モーダル大規模言語モデル(Multimodal Large Language Models: MLLM)の急速な進歩は、視覚・言語・行動(Vision-Language-Action: VLA)パラダイムの道を開きました。このパラダイムは、単一のポリシー内で視覚認識、自然言語理解、および制御を統合します。自動運転分野の研究者たちは、これらの手法を車両ドメインに積極的に適用しています。このようなモデルは、自動車が高レベルの指示を解釈し、複雑な交通状況について推論を行い、自ら決定を下すことを約束しています。しかし、文献は断片的であり、急速に拡大しています。本調査では、自動運転向けVLA(VLA for Autonomous Driving: VLA4AD)に関する初めての包括的な概観を提供します。私たちは (i) 最近の研究で共有されているアーキテクチャの構成要素を形式化し、(ii) 初期の説明者から推論中心のVLAモデルへの進化を追跡し、(iii) 自動運転分野におけるVLAの進展に基づいて20以上の代表的なモデルを比較します。また、既存のデータセットとベンチマークを整理し、走行安全性、精度、説明品質を同時に測定するプロトコルに焦点を当てます。最後に、オープンな課題である堅牢性、リアルタイム効率性、形式検証について詳細に述べるとともに、VLA4ADの将来方向性を示します。本調査は、解釈可能性のある社会的に適合した自動運転車両の開発に役立つ簡潔かつ完全な参考資料を提供します。GitHub リポジトリは \href{this https URL}{SicongJiang/Awesome-VLA4AD} で利用可能です。