11일 전
마스킹 모델링 두오: 입력을 모델링하도록 두 네트워크 모두를 유도함으로써 표현 학습하기
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino

초록
마스킹된 자동부호화기(Masked Autoencoders)는 간단하면서도 강력한 자기지도 학습 방법이다. 그러나 이 방법은 마스킹된 입력 패치를 재구성함으로써 간접적으로 표현을 학습한다. 일부 기법은 마스킹된 패치의 표현을 예측함으로써 표현을 직접 학습하나, 우리는 모든 패치를 사용해 학습 신호를 생성하는 것이 최적의 방식이 아니라고 판단한다. 본 연구에서는 마스킹된 패치만을 활용해 학습 신호를 얻으면서도 표현을 직접적으로 학습하는 새로운 방법인 마스킹 모델링 두오(Masked Modeling Duo, M2D)를 제안한다. M2D에서는 온라인 네트워크가 보이는 패치를 인코딩하고 마스킹된 패치의 표현을 예측하며, 타겟 네트워크(모멘텀 인코더)는 마스킹된 패치를 인코딩한다. 타겟 표현을 더 잘 예측하기 위해서는 온라인 네트워크가 입력을 잘 모델링해야 하며, 동시에 타겟 네트워크도 입력을 잘 모델링하여 온라인 예측과 일치해야 한다. 이 과정을 통해 학습된 표현은 입력을 더 잘 모델링할 수 있게 된다. 우리는 일반 목적의 오디오 표현을 학습함으로써 M2D의 유효성을 검증하였으며, UrbanSound8K, VoxCeleb1, AudioSet20K, GTZAN, SpeechCommandsV2 등의 작업에서 새로운 최고 성능(SOTA)을 달성하였다. 또한 부록에서 ImageNet-1K를 활용하여 이미지에 대한 M2D의 효과성도 추가로 검증하였다.