2달 전

OccFormer: 시각 기반 3D 의미 점유 예측을 위한 듀얼 패스 트랜스포머

Zhang, Yunpeng ; Zhu, Zheng ; Du, Dalong
OccFormer: 시각 기반 3D 의미 점유 예측을 위한 듀얼 패스 트랜스포머
초록

자율 주행을 위한 시각 기반 인식은 새의 눈에서 보는 관점(BEV) 표현에서 3차원 의미 점유로 변화를 겪었습니다. BEV 평면과 비교하여 3차원 의미 점유는 수직 방향에 대한 구조적 정보를 추가로 제공합니다. 본 논문에서는 의미 점유 예측을 위해 3D 볼륨을 효과적으로 처리하는 이중 경로 트랜스포머 네트워크인 OccFormer를 제시합니다. OccFormer는 카메라가 생성한 3D 복셀 특성을 장거리, 동적, 그리고 효율적으로 인코딩합니다. 이는 수평 평면을 따라 무거운 3D 처리를 로컬 및 글로벌 트랜스포머 경로로 분해하여 얻어집니다. 점유 디코더에 대해서는 preserve-pooling과 클래스 안내 샘플링(class-guided sampling)을 제안하여 vanilla Mask2Former를 3D 의미 점유에 적응시키며, 이는 희소성과 클래스 불균형을 크게 완화시킵니다. 실험 결과, OccFormer는 SemanticKITTI 데이터셋에서 의미 장면 완성과 nuScenes 데이터셋에서 LiDAR 의미 세그멘테이션에 있어 기존 방법들을 크게 능가함을 입증하였습니다. 코드는 \url{https://github.com/zhangyp15/OccFormer}에서 확인할 수 있습니다.

OccFormer: 시각 기반 3D 의미 점유 예측을 위한 듀얼 패스 트랜스포머 | 최신 연구 논문 | HyperAI초신경