희소 포인트-보케일 컨볼루션을 이용한 효율적인 3D 아키텍처 탐색

자율주행 차량은 안전하게 주행하기 위해 3D 장면을 효율적이고 정확하게 이해해야 합니다. 제한된 하드웨어 자원으로 인해 기존의 3D 인식 모델들은 저해상도 벡터화와 과격한 다운샘플링으로 인해 보행자, 자전거 타는 사람 등 작은 객체를 잘 인식하지 못하는 문제가 있습니다. 이를 해결하기 위해, 우리는 라이트급 3D 모듈인 희소 포인트-벡셀 컨볼루션(Sparse Point-Voxel Convolution, SPVConv)을 제안합니다. 이 모듈은 일반적인 희소 컨볼루션에 고해상도 포인트 기반 분기를 추가하여, 큰 실외 장면에서도 미세한 세부 정보를 유지할 수 있습니다.효율적인 3D 모델들의 스펙트럼을 탐색하기 위해, 먼저 SPVConv 기반의 유연한 아키텍처 설계 공간을 정의하고, 그 다음으로는 이 다양한 설계 공간에서 최적의 네트워크 아키텍처를 효율적이고 효과적으로 검색할 수 있는 3D 신경망 아키텍처 검색(3D Neural Architecture Search, 3D-NAS) 방법을 제시합니다. 실험 결과는 SPVNAS 모델이 빠르고 정확하다는 것을 입증합니다: 이 모델은 경쟁력 있는 SemanticKITTI 리더보드에서 최고 성능을 나타내며, 최신 기술인 MinkowskiNet보다 3.3% 우수한 성능을 보입니다. 또한, 더 높은 정확도로 MinkowskiNet보다 8배의 계산량 감소와 3배의 측정 속도 향상을 달성하였습니다.마지막으로, 우리의 방법을 3D 객체 검출에 적용하였으며, KITTI 데이터셋에서 단일 단계 검출 베이스라인보다 일관된 개선 효과를 보였습니다.