15일 전

마스킹된 오토인코더: 듣는다

Po-Yao Huang, Hu Xu, Juncheng Li, Alexei Baevski, Michael Auli, Wojciech Galuba, Florian Metze, Christoph Feichtenhofer
마스킹된 오토인코더: 듣는다
초록

이 논문은 이미지 기반 마스킹 자동에코더(Masked Autoencoders, MAE)의 단순한 확장 방식을 제안하며, 오디오 스펙트로그램에서 자기지도 학습(자기지도 표현 학습)을 수행한다. MAE의 트랜스포머 인코더-디코더 설계를 따르는 본 논문의 Audio-MAE는 높은 마스킹 비율로 오디오 스펙트로그램 패치를 먼저 인코딩한 후, 마스킹되지 않은 토큰들만 인코더 계층을 통해 전달한다. 이후 디코더는 인코딩된 컨텍스트를 마스크 토큰으로 패딩하여 재정렬하고, 입력 스펙트로그램을 재구성한다. 오디오 스펙트로그램은 시간과 주파수 대역에서 국소적으로 매우 강한 상관관계를 가지므로, 디코더에 국소 윈도우 어텐션을 도입하는 것이 유익함을 발견하였다. 이후 본 모델은 타겟 데이터셋에서 더 낮은 마스킹 비율로 인코더를 미세 조정(fine-tune)한다. 실험 결과, Audio-MAE는 6개의 오디오 및 음성 분류 작업에서 기존의 외부 감독 학습 전처리를 사용하는 최근 모델들을 모두 능가하는 새로운 최고 성능을 기록하였다. 코드와 모델은 https://github.com/facebookresearch/AudioMAE 에 공개될 예정이다.

마스킹된 오토인코더: 듣는다 | 최신 연구 논문 | HyperAI초신경