Command Palette

Search for a command to run...

4달 전

OmniDrive: 자율 주행을 위한 종합적인 시각-언어 데이터셋 및 반사실적 추론

Shihao Wang Zhiding Yu Xiaohui Jiang Shiyi Lan Min Shi Nadine Chang Jan Kautz Ying Li Jose M. Alvarez

OmniDrive: 자율 주행을 위한 종합적인 시각-언어 데이터셋 및 반사실적 추론

초록

비전-언어 모델(Vision-Language Models, VLMs)의 발전은 이들의 강력한 추론 능력을 활용하기 위한 자율 주행에 대한 관심을 증가시키고 있습니다. 그러나 이러한 능력을 2D에서 완전한 3D 이해로 확장하는 것은 실제 응용 분야에서 필수적입니다. 이 문제를 해결하기 위해, 우리는 대안적 추론을 통해 에이전트 모델을 3D 주행 과제와 일치시키는 종합적인 비전-언어 데이터셋인 OmniDrive를 제안합니다. 이 접근 방식은 잠재적인 시나리오와 그 결과를 평가함으로써 결정 과정을 향상시키며, 이는 인간 운전자들이 대체 행동을 고려하는 것과 유사합니다. 우리의 대안적 기반 합성 데이터 주석 프로세스는 계획 궤도와 언어 기반 추론 사이의 간극을 메우는 대규모, 고품질 데이터셋을 생성하여 더 밀도 높은 감독 신호를 제공합니다. 또한, 우리는 비전-언어 일치성과 3D 인식의 중요성을 평가하기 위해 두 가지 고급 OmniDrive-Agent 프레임워크, 즉 Omni-L과 Omni-Q를 탐구하며, 효과적인 LLM-에이전트 설계에 대한 중요한 통찰력을 제공합니다. DriveLM Q&A 벤치마크와 nuScenes 오픈 루프 계획에서의 상당한 개선은 우리 데이터셋과 방법론의 효과성을 입증합니다.

코드 저장소

nvlabs/omnidrive
공식
pytorch
GitHub에서 언급됨

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
OmniDrive: 자율 주행을 위한 종합적인 시각-언어 데이터셋 및 반사실적 추론 | 연구 논문 | HyperAI초신경