2달 전
오토인코더를 크로스모달 교사로: 사전 학습된 2D 이미지 트랜스포머가 3D 표현 학습에 도움을 줄 수 있을까?
Dong, Runpei ; Qi, Zekun ; Zhang, Linfeng ; Zhang, Junbo ; Sun, Jianjian ; Ge, Zheng ; Yi, Li ; Ma, Kaisheng

초록
딥러닝의 성공은 포괄적인 라벨을 가진 대규모 데이터에 크게 의존하며, 이는 2D 이미지나 자연어와 비교하여 3D에서 수집하는 것이 더 비싸고 시간이 소요됩니다. 이로 인해, 3D보다 더 많은 데이터로 사전 학습된 모델을 교사로 활용하여 모달 간 지식 전송을 촉진할 수 있는 잠재력이 제기되었습니다. 본 논문에서는 지식 증류의 통합적 접근 방식으로 마스킹 모델링을 재검토하고, 2D 이미지나 자연어로 사전 학습된 기초 트랜스포머가 자동인코더를 Cross-Modal Teachers (ACT)로 훈련하여 자기지도 3D 표현 학습에 도움을 줄 수 있음을 보여줍니다. 사전 학습된 트랜스포머는 이산 변분 오토인코딩 자기지도를 사용하여 모달 간 3D 교사로 전환되며, 이 과정에서 프롬프트 조정(prompt tuning)을 통해 더 나은 지식 상속을 위해 동결됩니다. 3D 교사가 인코딩한 잠재 특징은 마스킹 포인트 모델링의 목표로 사용되며, 여기서 어두운 지식(dark knowledge)이 기초 기하학적 이해를 갖춘 3D 트랜스포머 학생에게 증류됩니다. 우리 ACT 사전 학습 3D 학습자는 다양한 다운스트림 벤치마크에서 최고 수준의 일반화 능력을 달성하였으며, 예를 들어 ScanObjectNN에서 전체 정확도 88.21%를 기록하였습니다. 코드는 https://github.com/RunpeiDong/ACT 에 공개되었습니다.