
최근 딥 신경망을 활용한 3차원(3D) 세분화 분야의 발전은 가용 데이터셋에서 빠른 성능 향상을 보이며 놀라운 성공을 거두었다. 그러나 현재의 3D 세분화 벤치마크는 카테고리 수가 매우 제한적이며, 예를 들어 ScanNet과 SemanticKITTI는 각각 30개 미만의 클래스만 포함하고 있어 실제 환경의 다양성을 충분히 반영하지 못한다(예: 세분화 이미지 이해는 수백에서 수천 개의 클래스를 다룬다). 이를 해결하기 위해 본 연구에서는 ScanNet 데이터 기반으로 기존보다 약 10배 이상 많은 200개의 클래스 카테고리를 포함하는 확장된 새로운 벤치마크를 제안하며, 3D 세분화의 더 큰 어휘를 연구하는 것을 목표로 한다. 이처럼 많은 클래스 수는 자연스럽게 큰 클래스 불균형을 초래하며, 기존 3D 세분화 기법에 있어 큰 도전 과제가 된다. 이러한 맥락에서 보다 강건한 3D 특징을 학습하기 위해, 텍스트 임베딩과의 유사도를 유도하는 언어 기반 사전 훈련 방법을 제안한다. 이 방법은 훈련 예시가 제한된 클래스의 3D 특징이 사전 훈련된 텍스트 임베딩 근처에 위치하도록 유도함으로써, 정보 부족 클래스에 대한 학습을 보완한다. 광범위한 실험 결과, 제안하는 방법은 제안된 벤치마크에서 기존 최고 수준의 3D 사전 훈련 기법보다 일관되게 우수한 성능을 보이며, 상대적 mIoU에서 +9% 향상된 결과를 얻었다. 특히, 라벨링 데이터가 5%만 제공되는 제한된 데이터 시나리오에서도 상대적 mIoU가 +25% 향상되는 결과를 확인할 수 있었다.