
최근 들어 3차원(point cloud)에서 3차원 객체를 직접 탐지하는 방법에 대한 관심이 증가하고 있다. 기존의 방법들은 비정형(point cloud)에서 객체 표현을 추출하기 위해, 일반적으로 각 객체 후보에 점들을 그룹화하는 단계를 거친다. 이를 통해 PointNet과 유사한 네트워크를 활용하여 그룹화된 점들로부터 객체 특징을 추출한다. 그러나 수작업으로 설계된 그룹화 방식은 점 할당의 정확도가 낮아, 3차원 객체 탐지 성능에 부정적인 영향을 미친다.본 논문에서는 3차원 점 클라우드로부터 3차원 객체를 직접 탐지하기 위한 간단하면서도 효과적인 방법을 제안한다. 기존의 각 객체 후보에 국한된 로컬 점들을 그룹화하는 방식이 아닌, Transformer의 주의 메커니즘(attention mechanism)을 활용하여 점 클라우드 내 모든 점을 통합적으로 고려함으로써 객체 특징을 계산한다. 이 과정에서 각 점의 기여도는 네트워크 학습 과정에서 자동으로 학습된다. 또한 개선된 주의 메커니즘의 반복적 구성(stacking scheme)을 통해 다양한 단계에서 추출된 객체 특징을 융합함으로써 보다 정확한 객체 탐지 결과를 도출한다. 복잡한 부가 기능 없이도 제안된 방법은 두 가지 널리 사용되는 벤치마크인 ScanNet V2와 SUN RGB-D에서 최신 기술 수준(SOTA)의 3차원 객체 탐지 성능을 달성하였다. 코드와 모델은 공개적으로 제공되며, 다음 URL에서 확인할 수 있다: \url{https://github.com/zeliu98/Group-Free-3D}