2달 전

2D 사전 학습 모델을 통해 3D 표현 학습: 이미지-포인트 마스킹 오토인코더를 이용한 방법

Zhang, Renrui ; Wang, Liuhui ; Qiao, Yu ; Gao, Peng ; Li, Hongsheng
2D 사전 학습 모델을 통해 3D 표현 학습:
이미지-포인트 마스킹 오토인코더를 이용한 방법
초록

대규모 이미지 데이터를 사용한 사전 학습은 강건한 2D 표현을 얻기 위한 사실상의 표준이 되었습니다. 반면에, 비싼 데이터 수집 및 주석화 과정 때문에 대규모 3D 데이터셋이 부족하여 고품질 3D 특성 학습이 크게 제약받고 있습니다. 본 논문에서는 Image-to-Point Masked Autoencoders(I2P-MAE)를 통해 2D 사전 학습 모델로부터 우수한 3D 표현을 얻는 대안적인 방법을 제안합니다. 자기 지도 사전 학습을 통해 우리는 잘 학습된 2D 지식을 활용하여 3D 마스킹 오토인코딩을 안내합니다. 이는 인코더-디코더 구조를 사용하여 마스킹된 포인트 토큰을 재구성하는 역할을 합니다. 구체적으로, 먼저 기존의 2D 모델들을 이용하여 입력 포인트 클라우드의 다중 시점 시각적 특성을 추출하고, 그 위에서 두 가지 유형의 이미지-포인트 학습 방식을 수행합니다. 하나는 의미적으로 중요한 포인트 토큰들이 인코더에 가시적으로 유지되도록 하는 2D 안내 마스킹 전략입니다. 무작위 마스킹에 비해 네트워크가 주요 3D 구조에 더 집중하고, 주요 공간 신호로부터 마스킹된 토큰을 복원할 수 있습니다. 다른 하나는 디코더 후에 이러한 가시 토큰들이 해당 다중 시점 2D 특성을 재구성하도록 강제하는 것입니다. 이로써 네트워크는 풍부한 이미지 데이터에서 학습된 고차원적인 2D 의미론적 정보를 효과적으로 계승하여 차별화된 3D 모델링에 활용할 수 있습니다. 우리의 이미지-포인트 사전 학습 방식으로 지원되는 I2P-MAE는 어떠한 미세 조정 없이 ModelNet40에서 선형 SVM으로 93.4%의 정확도를 달성하며, 기존 방법들의 완전히 학습된 결과와 경쟁력을 보여줍니다. ScanObjectNN의 가장 어려운 분할에서 추가로 미세 조정하면 I2P-MAE는 최신 기술과 비교해 +3.68% 높은 최고 수준의 90.11% 정확도를 달성하며, 뛰어난 전이 능력을 입증합니다. 코드는 https://github.com/ZrrSkywalker/I2P-MAE 에서 제공될 예정입니다.

2D 사전 학습 모델을 통해 3D 표현 학습: 이미지-포인트 마스킹 오토인코더를 이용한 방법 | 최신 연구 논문 | HyperAI초신경