11일 전

data2vec: 음성, 시각, 언어 분야에서의 자기지도 학습을 위한 일반적 프레임워크

Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli
data2vec: 음성, 시각, 언어 분야에서의 자기지도 학습을 위한 일반적 프레임워크
초록

다양한 모달리티 간에 자기지도 학습(self-supervised learning)의 핵심 개념은 동일하지만, 실제로는 각각의 알고리즘과 목적함수가 단일 모달리티 중심으로 개발되었기 때문에 크게 달라진다. 보다 일반적인 자기지도 학습에 가까이 가기 위해, 음성, 자연어 처리(NLP), 컴퓨터 비전 등 다양한 모달리티에 동일한 학습 방법을 적용할 수 있는 data2vec 프레임워크를 제안한다. 핵심 아이디어는 표준 Transformer 아키텍처를 사용한 자기-증류(self-distillation) 환경에서 입력 데이터의 일부를 마스킹한 관측값을 기반으로 전체 입력 데이터의 잠재 표현(latent representations)을 예측하는 것이다. 단어, 시각적 토큰, 인간 발성의 단위와 같이 국소적인 특성을 지닌 모달리티에 특화된 타겟을 예측하는 대신, data2vec은 전체 입력 데이터로부터 정보를 포함하는 문맥화된 잠재 표현을 예측한다. 음성 인식, 이미지 분류, 자연어 이해의 주요 벤치마크에서의 실험 결과는 기존의 최고 성능 기법들과 경쟁하거나 새로운 최고 성능을 달성함으로써 본 연구의 효과를 입증한다.

data2vec: 음성, 시각, 언어 분야에서의 자기지도 학습을 위한 일반적 프레임워크 | 최신 연구 논문 | HyperAI초신경