2달 전

LaRa: 다중 카메라 조감도 의미 분할을 위한 잠재 변수와 빔

Bartoccioni, Florent ; Zablocki, Éloi ; Bursuc, Andrei ; Pérez, Patrick ; Cord, Matthieu ; Alahari, Karteek
LaRa: 다중 카메라 조감도 의미 분할을 위한 잠재 변수와 빔
초록

최근 자율 주행 분야에서는 세계의 중간 표현으로 새의 눈에서 본 시점(Bird's-eye-view, BEV) 의미 지도를 널리 채택하고 있습니다. 이러한 BEV 지도의 온라인 예측은 다중 카메라 데이터 추출 및 공통 상부 시점 그리드로의 융합과 투영을 포함하는 복잡한 작업이 필요합니다. 이는 일반적으로 오류가 발생하기 쉬운 기하학적 연산(예: 호모그래피 또는 단일 카메라 깊이 추정에서의 역투영)이나 이미지 픽셀과 BEV 픽셀 간의 직접 밀집 매핑(예: MLP 또는 어텐션을 사용한 방법)으로 수행됩니다. 본 연구에서는 'LaRa'라는 효율적인 인코더-디코더 모델을 제시하는데, 이 모델은 트랜스포머 기반으로 다중 카메라에서 차량 의미 분할을 수행합니다. 우리의 접근 방식은 크로스-어텐션 시스템을 사용하여 여러 센서로부터 정보를 집약하여 컴팩트하면서도 풍부한 잠재 표현들의 모음을 생성합니다. 이러한 잠재 표현들은 일련의 자기-어텐션 블록을 거친 후, 두 번째 크로스-어텐션을 통해 BEV 공간으로 재투영됩니다. 우리는 nuScenes 데이터셋에서 트랜스포머를 사용한 이전 최고 연구들보다 우수한 성능을 보임을 입증하였습니다. 코드와 학습된 모델은 https://github.com/valeoai/LaRa 에서 제공됩니다.

LaRa: 다중 카메라 조감도 의미 분할을 위한 잠재 변수와 빔 | 최신 연구 논문 | HyperAI초신경