이미지가 더 많은 정보를 제공하게 하라: 형태 분석을 위한 포인트 클라우드 크로스모달 트레이닝

최근 3차원 포인트 클라우드 분석은 놀라운 진전을 이루었지만, 단일 모달리티에서의 표현 학습 기반의 패러다임은 점차 한계에 부딪히고 있다. 본 연구에서는 3차원 포인트 클라우드 표현의 구분 능력을 더욱 향상시키기 위해, 텍스처, 색상, 그림자 등 풍부한 시각적 정보를 내재적으로 포함하고 있는 이미지를 적극적으로 활용하는 방향으로 나아간다. 구체적으로, 본 논문은 렌더링되거나 투영된 3차원 객체의 2차원 시각 이미지(뷰 이미지)를 활용하여 포인트 클라우드 분석을 강화하는 간단하면서도 효과적인 다모달 학습 전략인 Point Cloud Cross-Modality Training (PointCMT)을 제안한다. 실질적으로, 뷰 이미지로부터 보조 지식을 효과적으로 추출하기 위해 교사-학생 프레임워크를 설계하고, 다모달 학습을 지식 증류(knowledge distillation) 문제로 재정의한다. PointCMT는 새로운 특징 및 분류기 개선 기준을 통해 서로 다른 모달리티 간의 분포 불일치를 제거하며, 잠재적인 부정적 전이(negative transfer)를 효과적으로 방지한다. 특히, PointCMT는 아키텍처 수정 없이도 단일 포인트 기반 표현을 효과적으로 개선할 수 있다. 다양한 데이터셋에서 수행된 충분한 실험을 통해, 매력적인 백본 모델(예: PointNet++ 및 PointMLP)에 PointCMT를 적용했을 때 모델넷40과 스캔오브젝트엔(ScanObjectNN)에서 각각 94.4% 및 86.7%의 정확도로 최신 기술 수준(SOTA) 성능을 달성함을 입증하였다. 코드는 https://github.com/ZhanHeshen/PointCMT에서 공개될 예정이다.