다양한 데이터셋을 활용한 포인트 프롬프트 훈련을 통한 대규모 3D 표현 학습 방향

딥러닝 모델의 급속한 발전은 막대한 학습 데이터를 활용할 수 있는 능력에 기인하는 경우가 많다. 그러나 이러한 장점은 아직 3차원(3D) 딥러닝 분야에 충분히 반영되지 않았으며, 주로 대규모 3D 데이터셋의 부족 때문이다. 다양한 접근 가능한 데이터 소스를 통합하여 하나의 모델이 공동으로 학습하도록 하는 것은 이 문제에 대한 잠재적인 해결책이 될 수 있다. 그러나 3D 포인트 클라우드 데이터셋 간에 큰 도메인 갭이 존재하기 때문에, 이러한 혼합 학습 방식은 모델 성능에 악영향을 미치고 단일 데이터셋 학습에 비해 성능 저하(즉, 부정적 전이, negative transfer)를 초래할 수 있다. 이러한 도전 과제를 고려하여, 본 연구는 3D 표현 학습 맥락에서 다중 데이터셋 간의 상호보완적 학습을 가능하게 하는 새로운 프레임워크인 Point Prompt Training(PPT)을 제안한다. 이 프레임워크는 여러 사전 학습 파라다임을 지원한다. 본 프레임워크 기반으로 Prompt-driven Normalization을 제안하여 도메인 특화 프롬프트를 활용해 모델이 다양한 데이터셋에 적응하도록 하고, Label 텍스트 간의 관계를 활용하여 다중 데이터셋 레이블 공간을 효과적으로 통합하는 Language-guided Categorical Alignment를 도입한다. 광범위한 실험을 통해 PPT가 상호보완적 학습과 관련된 부정적 전이를 극복하고 일반화 가능한 표현을 생성함을 입증하였다. 특히, 단일 가중치 공유 모델을 사용하여 감독 기반의 다중 데이터셋 학습을 수행함으로써 각 데이터셋에서 최신 기술 수준(SOTA)의 성능을 달성하였다. 더불어 사전 학습 프레임워크로서 활용할 경우, 표현 품질 측면에서 다른 사전 학습 접근법을 뛰어넘으며, 실내 및 실외 3D 시나리오를 아우르는 10개 이상의 다양한 하류 작업에서 뛰어난 SOTA 성능을 기록하였다.