HyperAI초신경
19시간 전

자율 주행을 위한 시각-언어-행동 모델에 대한 조사

Sicong Jiang, Zilin Huang, Kangan Qian, Ziang Luo, Tianze Zhu, Yang Zhong, Yihong Tang, Menglin Kong
자율 주행을 위한 시각-언어-행동 모델에 대한 조사
초록

다중 모드 대형 언어 모델(Multimodal Large Language Models, MLLM)의 급속한 발전은 시각-언어-행동(Vision-Language-Action, VLA) 패러다임의 길을 열었습니다. 이 패러다임은 단일 정책 내에서 시각 인식, 자연어 이해 및 제어를 통합합니다. 자율 주행 분야의 연구원들은 이러한 방법을 차량 도메인에 적극적으로 적용하고 있습니다. 이러한 모델들은 고수준 지시사항을 해석하고 복잡한 교통 상황을 추론하며 스스로 결정을 내릴 수 있는 자율 주행 차량을 약속합니다. 그러나 관련 문헌은 아직 분산되어 있으며 빠르게 확장되고 있습니다. 본 조사에서는 자율 주행용 VLA(VLA for Autonomous Driving, VLA4AD)에 대한 첫 번째 포괄적인 개요를 제공합니다. 우리는 (i) 최근 연구에서 공유되는 구조적 구성 요소를 체계화하고, (ii) 초기 설명자 중심에서 추론 중심 VLA 모델로의 진화 과정을 추적하며, (iii) 자율 주행 분야에서 VLA의 발전에 따라 20개 이상의 대표적인 모델들을 비교합니다. 또한 기존 데이터셋과 벤치마크를 정리하여 운전 안전성, 정확성 및 설명 품질을 동시에 측정하는 프로토콜들을 강조합니다. 마지막으로, 견고성(robustness), 실시간 효율성(real-time efficiency), 그리고 형식적 검증(formal verification)과 같은 미해결 과제들을 상세히 다루며 VLA4AD의 미래 방향성을 제시합니다. 본 조사는 해석 가능하고 사회적으로 일치된 자율 주행 차량의 발전을 위한 간결하면서도 완전한 참고 자료를 제공합니다. Github 저장소는 \href{this https URL}{SicongJiang/Awesome-VLA4AD}에서 이용할 수 있습니다.