MLCVNet: 3차원 객체 탐지를 위한 다중 수준 컨텍스트 보팅 네트워크

본 논문에서는 자기주의 메커니즘(self-attention mechanism)과 다중 스케일 특징 융합을 활용하여 다중 수준의 맥락 정보를 포착함으로써 3차원 객체 탐지 작업을 다룬다. 기존의 대부분의 3차원 객체 탐지 방법들은 개별 객체를 인식하는 데 집중하며, 이러한 객체들 간의 맥락 정보를 고려하지 않는다. 반면에, 최신 기술인 VoteNet을 기반으로 하여 3차원 객체들을 상호 연관적으로 인식할 수 있는 다중 수준 맥락 투표 네트워크(Multi-Level Context VoteNet, MLCVNet)를 제안한다. MLCVNet은 VoteNet의 투표 및 분류 단계에 세 가지 맥락 모듈을 도입하여 다양한 수준의 맥락 정보를 인코딩한다. 구체적으로, 점 패치(point patches) 간의 맥락 정보를 사전에 포착하기 위해 패치-패치 맥락(Patch-to-Patch Context, PPC) 모듈을 사용한다. 이후, 후보 객체 생성 및 분류 단계 전에 객체-객체 맥락(Object-to-Object Context, OOC) 모듈을 도입하여 객체 후보들 간의 맥락 정보를 포착한다. 마지막으로, 전역 장면 맥락(Global Scene Context, GSC) 모듈을 설계하여 전역적인 장면 맥락을 학습한다. 이를 통해 패치, 객체, 장면 수준의 맥락 정보를 효과적으로 포착함을 입증하였다. 제안하는 방법은 탐지 정확도를 향상시키는 효과적인 접근 방식으로, 어려운 3차원 객체 탐지 데이터셋인 SUN RGB-D 및 ScanNet에서 최신 기술 수준의 탐지 성능을 달성하였다. 또한, 코드는 https://github.com/NUAAXQ/MLCVNet에서 공개한다.