
초록
3D 포인트 클라우드에서 객체를 정확히 감지하는 것은 자율 주행, 가사 로봇, 증강/가상 현실 등 많은 응용 분야에서 핵심적인 문제입니다. 고도로 희소한 LiDAR 포인트 클라우드와 영역 제안 네트워크(RPN)를 연결하기 위해 대부분의 기존 연구는 예를 들어 조류 시점 투영(bird's eye view projection)과 같은 수작업으로 만든 특징 표현에 초점을 맞추어 왔습니다. 본 연구에서는 3D 포인트 클라우드에 대한 수작업 특징 엔지니어링의 필요성을 제거하고, 특징 추출과 바운딩 박스 예측을 단일 단계로 통합한 end-to-end 학습 가능한 딥 네트워크인 VoxelNet을 제안합니다. 구체적으로, VoxelNet은 포인트 클라우드를 균등한 간격으로 나누어 3D 복셀로 변환하며, 각 복셀 내의 포인트 그룹을 새로운 복셀 특징 인코딩(VFE) 레이어를 통해 일관된 특징 표현으로 변환합니다. 이 방법을 통해 포인트 클라우드는 설명적인 부피 표현으로 인코딩되며, 이를 RPN에 연결하여 감지를 생성합니다. KITTI 차량 감지 벤치마크에서 수행된 실험 결과, VoxelNet은 기존 LiDAR 기반 3D 감지 방법들보다 크게 우수한 성능을 보였습니다. 또한, 우리 네트워크는 다양한 기하학적 형태의 객체에 대해 효과적인 구분 표현을 학습하여 LiDAR만을 사용하여 보행자와 자전거 운전자의 3D 감지에서도 긍정적인 결과를 얻었습니다.