3D 장면에서 의미적 슈퍼포인트 트리 네트워크를 이용한 인스턴스 세그멘테이션

3D 장면 내 인스턴스 세분화는 장면 이해의 다양한 응용 분야에서 핵심적인 기술로, 데이터의 비정규성과 인스턴스 수의 불확실성이라는 복합적인 요인으로 인해 여전히 도전적인 과제이다. 최신 기법들은 일반적으로 먼저 점 단위의 의미적 및 인스턴스 수준에서 구분 가능한 특징을 학습한 후, 개별 점 그룹화를 통해 객체 인스턴스를 제안하는 두 단계의 전형적인 파이프라인에 의존한다. 이러한 접근법은 일정한 성과를 보여주지만, 다음과 같은 한계를 지닌다. (1) 두 번째 단계는 인스턴스 세분화의 주요 목적에 의해 감독되지 않으며, (2) 점 단위 특징 학습과 그룹화 과정이 데이터의 비정규성에 대해 효과적이지 못해 분할이 끊어지는 현상(분할 단편화)이 발생할 수 있다. 이러한 문제를 해결하기 위해 본 연구에서는 장면의 점들로부터 객체 인스턴스를 제안하는 엔드투엔드 솔루션인 '세맨틱 슈퍼포인트 트리 네트워크(Semantic Superpoint Tree Network, SSTNet)'를 제안한다. SSTNet의 핵심은 슈퍼포인트의 학습된 의미적 특징을 기반으로 구성된 중간 단계의 세맨틱 슈퍼포인트 트리(Semantic Superpoint Tree, SST)이며, 이 트리는 중간 노드에서 순회 및 분할되며, 이를 통해 객체 인스턴스를 제안한다. 또한 SSTNet은 잘못된 인스턴스 제안에 포함될 수 있는 슈퍼포인트를 제거하기 위해 '클리크넷(CliqueNet)'이라 불리는 개선 모듈을 설계하였다. ScanNet 및 S3DIS 기준 데이터셋에서 수행한 실험 결과는 제안한 방법의 우수성을 입증한다. 제출 시점 기준으로 SSTNet은 ScanNet (V2) 리더보드에서 2% 높은 mAP를 기록하며 1위를 차지하였으며, 두 번째로 우수한 방법보다 성능이 뛰어나다. PyTorch 기반의 소스 코드는 https://github.com/Gorilla-Lab-SCUT/SSTNet 에 공개되어 있다.