PV-RCNN: 3D 객체 검출을 위한 포인트-볼록 특징 집합 추상화

우리는 포인트 클라우드에서 정확한 3D 객체 검출을 위해 새로운 고성능 3D 객체 검출 프레임워크인 PointVoxel-RCNN (PV-RCNN)을 제시합니다. 제안된 방법은 3D 복셀(Convolutional Neural Network, CNN)과 PointNet 기반의 집합 추상화를 깊이 통합하여 더 구별력 있는 포인트 클라우드 특징을 학습합니다. 이 방법은 3D 복셀 CNN의 효율적인 학습과 고품질 제안(proposals) 및 PointNet 기반 네트워크의 유연한 수용 영역(receptive fields)의 장점을 활용합니다. 특히, 제안된 프레임워크는 새로운 복셀 집합 추상화 모듈을 통해 3D 장면을 작은 키포인트(keypoints) 세트로 요약하여 후속 계산을 줄이고 대표적인 장면 특징을 인코딩합니다. 복셀 CNN이 생성한 고품질 3D 제안들을 바탕으로, RoI-그리드 풀링(RoI-grid pooling)이 여러 수용 영역을 사용하여 키포인트에서 RoI-그리드 포인트로 제안 특징을 추상화하는 키포인트 집합 추상화를 통해 제안되었습니다. 전통적인 풀링 연산과 비교할 때, RoI-그리드 특징 포인트는 객체 신뢰도와 위치를 정확히 추정하기 위한 훨씬 더 풍부한 문맥 정보를 인코딩합니다. KITTI 데이터셋과 Waymo 오픈 데이터셋에 대한 광범위한 실험 결과, 제안된 PV-RCNN은 단순히 포인트 클라우드만 사용하여 최신 3D 검출 방법들을 크게 능가함을 보여주었습니다. 코드는 https://github.com/open-mmlab/OpenPCDet에서 제공됩니다.