2달 전
CarLLaVA: 카메라만 사용하는 폐루프 주행을 위한 시각-언어 모델
Katrin Renz; Long Chen; Ana-Maria Marcu; Jan Hünermann; Benoit Hanotte; Alice Karnsund; Jamie Shotton; Elahe Arani; Oleg Sinavski

초록
이 기술 보고서에서는 CARLA 자율 주행 도전과제 2.0을 위해 개발된 자율 주행용 비전 언어 모델(Vision Language Model, VLM)인 CarLLaVA를 소개합니다. CarLLaVA는 LLaVA VLM의 비전 인코더와 LLaMA 아키텍처를 백본으로 사용하여, 카메라 입력만으로 복잡하거나 비싼 라벨 없이 최신 수준의 폐루프 주행 성능을 달성하였습니다. 또한, 주행 출력과 함께 언어 코멘트를 예측하는 초기 결과도 제시합니다. CarLLaVA는 경로 예측과 웨이포인트(waypoints)의 반분리된 출력 표현을 사용하여, 경로의 이점을 통해 더 나은 횡방향 제어와 웨이포인트의 이점을 통해 더 나은 종방향 제어를 얻습니다. 우리는 쉽고 사소한 데이터에 계산력을 낭비하지 않고 대규모 주행 데이터셋에서 학습할 수 있는 효율적인 학습 방법론을 제안합니다. CarLLaVA는 CARLA 자율 주행 도전과제 2.0의 센서 트랙에서 1위를 차지하였으며, 기존 최신 기술보다 458%, 동시 제출작 중 가장 우수한 작품보다 32.6% 뛰어난 성능을 보였습니다.