2달 전
3D 포인트 클라우드의 시공간 자기 지도 표현 학습
Huang, Siyuan ; Xie, Yichen ; Zhu, Song-Chun ; Zhu, Yixin

초록
현재까지, 다양한 3D 장면 이해 작업은 여전히 실용적이고 일반화된 사전 학습 모델이 부족한 상태입니다. 이는 주로 3D 장면 이해 작업의 복잡한 특성과 카메라 시점, 조명, 가림 등으로 인해 발생하는 큰 변동성 때문입니다. 본 논문에서는 이러한 문제를 해결하기 위해 비지도 방식으로 라벨이 없는 3D 포인트 클라우드에서 학습할 수 있는 공간-시간 표현 학습(Spatio-Temporal Representation Learning, STRL) 프레임워크를 소개합니다.영아가 자연 환경에서 시각적 데이터를 통해 배우는 방식에 영감을 받아, 우리는 3D 데이터에서 유래된 풍부한 공간-시간 정보를 탐구하였습니다. 구체적으로, STRL은 3D 포인트 클라우드 시퀀스에서 시간적으로 상관관계가 있는 두 프레임을 입력으로 취하며, 공간 데이터 증강을 통해 변환하고, 비지도 방식으로 불변 표현을 학습합니다.STRL의 효과성을 입증하기 위해, 우리는 세 가지 유형(합성, 실내, 실외)의 데이터셋에서 광범위한 실험을 수행하였습니다. 실험 결과는 감독 학습 방법과 비교하여 비지도로 학습된 표현이 다양한 모델들이 유사하거나 더 우수한 성능을 달성할 수 있음을 보여주며, 사전 학습 모델을 3D 형태 분류, 3D 객체 검출 및 3D 의미 분할 등의 하류 작업에 일반화시키는 능력을 갖추고 있음을 확인하였습니다. 또한, 3D 포인트 클라우드에 내재된 공간-시간 문맥 정보가 학습된 표현을 크게 개선하는 것으로 나타났습니다.