7일 전

마스크된 오토인코더를 위한 타겟 표현 탐구

Xingbin Liu, Jinghao Zhou, Tao Kong, Xianming Lin, Rongrong Ji
마스크된 오토인코더를 위한 타겟 표현 탐구
초록

마스크된 오토인코더는 자기지도 시각 표현 학습을 위한 인기 있는 학습 패러다임으로 부상했다. 이러한 모델들은 입력 데이터의 일부를 무작위로 마스킹한 후, 타겟 표현에 기반하여 마스킹된 부분을 재구성한다. 본 논문에서는 좋은 표현을 학습하기 위해 타겟 표현을 신중하게 선택할 필요가 없음을 처음으로 보여준다. 왜냐하면 다양한 타겟 표현이 유사한 성질을 가진 모델을 유도하기 때문이다. 이 관찰을 바탕으로, 우리는 다단계 마스크된 디스틸레이션 파이프라인을 제안하며, 무작위 초기화된 모델을 교사로 사용함으로써 타겟 표현을 신중히 설계할 필요 없이 고용량 모델을 효과적으로 훈련할 수 있도록 한다. 흥미롭게도, 우리는 더 큰 용량의 교사 모델을 사용해보았고, 이로부터 얻은 디스틸레이션된 학습자 모델은 놀라운 전이 능력을 보였다. 분류, 전이 학습, 객체 탐지, 세그멘테이션 등 다양한 작업에서 제안하는 방법, 즉 부트스트랩된 교사(bootstrapped teacher)를 활용한 마스크된 지식 디스틸레이션(dBOT)은 이전의 자기지도 학습 방법들보다 비현저한 성능 우위를 보였다. 우리는 이러한 발견과 함께 제안하는 방법이, 마스크된 오토인코더의 사전 훈련 과정에서 타겟 표현의 역할을 다시 생각해보는 계기를 제공하기를 기대한다. 코드와 사전 훈련된 모델은 공개적으로 https://github.com/liuxingbin/dbot 에서 제공된다.

마스크된 오토인코더를 위한 타겟 표현 탐구 | 최신 연구 논문 | HyperAI초신경