
초록
3D 인스턴스 세그멘테이션은 로봇 공학 및 증강 현실 등 다양한 분야에서 널리 활용되며, 최근 높은 수요를 보이고 있다. 2D 이미지가 환경에 대한 투영 관측에 불과한 것과 달리, 3D 모델은 음영이나 스케일 모호성 없이 장면의 정량적 재구성을 가능하게 한다. 본 논문에서는 각 인스턴스에 의해 점유되는 복셀의 수를 '3D 오쿠피언시 사이즈(3D occupancy size)'로 정의한다. 이는 예측의 강건성에 장점을 가지며, 이를 기반으로 오쿠피언시 인식에 기반한 3D 인스턴스 세그멘테이션 방법인 OccuSeg를 제안한다. 제안한 다중 작업 학습은 오쿠피언시 신호와 임베딩 표현을 동시에 생성하며, 공간적 임베딩과 특징 임베딩의 학습 방식은 스케일 인식 차이에 따라 다르게 조정된다. 클러스터링 전략은 예측된 오쿠피언시 사이즈와 클러스터링된 오쿠피언시 사이즈 간의 신뢰할 수 있는 비교를 통해 효과를 발휘하며, 이는 어려운 샘플이 올바르게 클러스터링되도록 유도하고 과도한 세그멘테이션을 방지한다. 제안된 방법은 ScanNetV2, S3DIS, SceneNN 등 3개의 실세계 데이터셋에서 최신 기술 수준의 성능을 달성하면서도 높은 효율성을 유지한다.