2달 전

시각 기반 3D 의미 점유 예측을 위한 삼중 관점 접근법

Yuanhui Huang; Wenzhao Zheng; Yunpeng Zhang; Jie Zhou; Jiwen Lu
시각 기반 3D 의미 점유 예측을 위한 삼중 관점 접근법
초록

현대의 시각 중심 자율 주행 인식 방법은 3D 장면을 설명하기 위해 주로 새의 눈에서 본 뷰(BEV, Bird's-Eye-View) 표현을 채택하고 있습니다. 이 방법은 복셀 표현보다 효율적이지만, 단일 평면으로 장면의 세부적인 3D 구조를 설명하는 데 어려움이 있습니다. 이를 해결하기 위해, 우리는 BEV와 함께 두 개의 추가 수직 평면을 포함하는 삼중 시점(TPV, Tri-Perspective View) 표현을 제안합니다. 우리는 3D 공간 내 각 점을 세 개의 평면 위에 투영된 특징들의 합으로 모델링합니다. 이미지 특징을 3D TPV 공간으로 변환하기 위해, 우리는 트랜스포머 기반 TPV 인코더(TPVFormer)를 제안하여 TPV 특징을 효과적으로 얻습니다. 우리는 주의 메커니즘(attention mechanism)을 사용하여 각 TPV 평면에서 각 쿼리에 해당하는 이미지 특징들을 집계합니다. 실험 결과, 우리의 모델은 희소 감독(sparse supervision) 하에서 모든 복셀에 대한 의미적 점유를 효과적으로 예측함을 보여주었습니다. 우리는 카메라 입력만 사용하여 nuScenes 데이터셋에서 LiDAR 분할 작업에서 LiDAR 기반 방법과 유사한 성능을 달성할 수 있음을 처음으로 입증하였습니다. 코드: https://github.com/wzzheng/TPVFormer.

시각 기반 3D 의미 점유 예측을 위한 삼중 관점 접근법 | 최신 연구 논문 | HyperAI초신경