9일 전
도메인 독립형 자기 지도 학습을 위한 자체 가이드 마스킹 오토인코더
Johnathan Xie, Yoonho Lee, Annie S. Chen, Chelsea Finn

초록
자기지도 학습(self-supervised learning)은 대량의 레이블이 없는 데이터로부터 표현을 학습하는 데 뛰어나며, 다양한 데이터 모달리티에서 성공을 거두고 있다. 그러나 기존의 자기지도 학습 방법들은 각 도메인에 특화되어 있어, 새로운 모달리티로 확장하는 것은 쉽지 않다. 예를 들어, 각 도메인에 맞는 특수한 증강 기법(augmentations)이 사용되며, 이는 타겟 작업에서의 불변성(invariance)을 반영하기 때문이다. 마스킹 모델링(masked modeling)은 입력 증강에 의존하지 않기 때문에 도메인에 무관한 자기지도 학습 프레임워크로서 큰 전망을 보이지만, 여전히 마스킹 샘플링 절차가 도메인에 따라 달라지는 문제가 있다. 본 연구에서는 완전히 도메인에 무관한 마스킹 모델링 방법인 Self-guided Masked Autoencoders(SMA)를 제안한다. SMA는 주어진 데이터에 대한 도메인 특화된 가정 없이, 주의(attention) 기반 모델을 마스킹 모델링 목적함수를 통해 학습함으로써, 마스킹을 자가 지도 방식으로 샘플링하는 방식을 학습한다. 우리는 단백질 생물학, 화학적 성질 예측, 입자 물리학 분야의 세 가지 자기지도 학습 벤치마크에서 SMA를 평가하였다. 그 결과, SMA는 도메인 특화된 지식 없이도 표현을 효과적으로 학습할 수 있으며, 이 세 가지 벤치마크에서 최신 기술(SOTA) 수준의 성능을 달성함을 확인하였다.