핫스팟으로서의 객체: 핫스팟의 발화를 통한 앵커리스 3D 객체 탐지 접근법

LiDAR 기반 점군에서의 정확한 3D 객체 탐지는 데이터의 희소성과 비정규성이라는 도전 과제에 직면해 있다. 기존의 방법들은 점들을 정규적으로 정렬하려는 시도를 하며, 예를 들어 복셀화(voxelization)를 통해 2D/3D 신경망을 통과시킨 후, 관심 객체의 모든 점들로부터 수집된 종합적 증거를 바탕으로 3D 경계상자(offset)를 예측하는 객체 수준의 앵커를 정의한다. 그러나 최신의 앵커 기반 방법들과는 달리, 데이터 희소성의 본질에 착안하여, 본 연구에서는 개별 객체 부분에 존재하는 점들조차도 객체의 의미 정보에 대해 유의미한 정보를 제공한다는 점을 관찰한다. 따라서 기존의 객체 수준 앵커를 사용하는 방식과는 반대되는 접근을 제안한다. 구성 모델(compositional models)의 영감을 받아, 객체를 구성하는 부분과 그 공간적 관계로 표현하는 방식에 착안하여, 객체를 내부에 비어 있지 않은 복셀들—즉, 핫스팟(hotspots)으로 구성하고, 핫스팟 간의 공간적 관계로 표현하는 방식을 제안한다. 이를 통해 ‘객체는 핫스팟들로 구성된다(OHS: Object as Hotspots)’라는 표현 방식을 도입한다. OHS 기반으로, 객체 수준 앵커 없이 동작하는 새로운 탐지 헤드를 제안하며, 객체 간 점의 희소성 불균형 문제를 해결하기 위한 혁신적인 진짜 레이블 할당 전략을 도입한다. 이는 네트워크가 점이 더 많은 객체에 편향되는 것을 방지한다. 실험 결과, 본 연구에서 제안한 방법은 점의 수가 적은 객체에 대해 뛰어난 성능을 보였다. 특히, KITTI 3D 탐지 벤치마크에서 자전거 탑승자 및 보행자 탐지 부문에서 1위를 기록하였으며, NuScenes 3D 탐지 벤치마크에서도 최고 수준의 성능을 달성하였다.