2달 전
Lift, Splat, Shoot: 임의의 카메라 장비에서 이미지를 인코딩하기 위한 암시적인 3D 재투영 방법
Philion, Jonah ; Fidler, Sanja

초록
자율 주행 차량의 인식 목표는 여러 센서에서 의미론적 표현을 추출하고 이를 운동 계획에 사용할 수 있는 단일 "상공 시점" 좌표 프레임으로 융합하는 것입니다. 우리는 임의의 수의 카메라에서 이미지 데이터를 주어졌을 때, 장면의 상공 시점 표현을 직접 추출하는 새로운 엔드투엔드 아키텍처를 제안합니다. 우리의 접근 방식의 핵심 아이디어는 각각의 이미지를 개별적으로 각 카메라에 대한 피라미다형 특성으로 "리프트(lift)"한 다음, 모든 피라미다형 특성을 라스터화된 상공 시점 그리드로 "스플랫(splat)"하는 것입니다. 전체 카메라 장비에서 학습함으로써, 우리의 모델이 이미지를 표현하는 방법뿐만 아니라 모든 카메라로부터 예측된 정보를 단일 통합된 장면 표현으로 융합하는 방법을 배우며, 캘리브레이션 오류에 견고하다는 증거를 제공합니다.표준 상공 시점 작업인 객체 분할과 맵 분할에서 우리의 모델은 모든 기준선 및 이전 연구보다 우수한 성능을 보입니다. 운동 계획을 위한 밀도 높은 표현 학습이라는 목표를 달성하기 위해, 우리는 우리 네트워크가 출력하는 상공 시점 비용 맵에 템플릿 궤도를 "슈팅(shoot)"하여 해석 가능한 엔드투엔드 운동 계획이 가능하다는 것을 보여줍니다. 우리는 라이다(LiDAR)로부터 얻은 정확한 깊이 정보를 사용하는 모델들과 비교하여 우리의 접근 방식을 벤치마킹했습니다. 프로젝트 페이지와 코드: https://nv-tlabs.github.io/lift-splat-shoot .