11일 전
V-DETR: 3차원 객체 탐지용 정점 상대 위치 인코딩을 갖춘 DETR
Yichao Shen, Zigang Geng, Yuhui Yuan, Yutong Lin, Ze Liu, Chunyu Wang, Han Hu, Nanning Zheng, Baining Guo

초록
우리는 DETR 프레임워크를 활용한 고성능 3D 포인트 클라우드 객체 탐지기인 V-DETR를 제안한다. 기존의 접근 방식들은 훈련 데이터의 제한된 스케일로 인해 정확한 인덕티브 바이어스(유추 편향)를 학습하지 못해 최적의 성능을 달성하지 못했다. 특히, 쿼리(query)가 타겟 객체로부터 멀리 떨어진 포인트에 주목하는 경우가 빈번하게 발생하여 객체 탐지의 국소성 원칙(locality principle)을 위반하였다. 이를 해결하기 위해, 각 디코더 레이어에서 쿼리가 예측한 3D 박스에 대한 각 포인트의 상대적 위치를 기반으로 위치 인코딩을 계산하는 새로운 3D 정점 상대 위치 인코딩(3DV-RPE) 기법을 제안한다. 이는 모델이 객체 주변의 포인트에 집중하도록 명확한 정보를 제공함으로써 국소성 원칙을 충족시킨다. 또한, 작업의 본질을 이해한 바탕으로 데이터 정규화를 포함한 다양한 측면에서 전반적인 파이프라인을 체계적으로 개선하였다. 제안하는 방법은 도전적인 ScanNetV2 벤치마크에서 뛰어난 성능을 보였으며, 기존의 3DETR 대비 $\rm{AP}{25}$/$\rm{AP}{50}$에서 각각 65.0\%/47.0\%에서 77.8\%/66.0\%로 크게 향상되었다. 더불어, 본 연구는 ScanNetV2 및 SUN RGB-D 데이터셋에서 새로운 기록을 수립하였다. 코드는 http://github.com/yichaoshen-MS/V-DETR 에서 공개될 예정이다.