2달 전

EAT: 효율적인 오디오 트랜스포머를 이용한 자기 지도 사전 학습

Chen, Wenxi ; Liang, Yuzhe ; Ma, Ziyang ; Zheng, Zhisheng ; Chen, Xie
EAT: 효율적인 오디오 트랜스포머를 이용한 자기 지도 사전 학습
초록

음성 자기 감독 학습(SSL) 사전 훈련은 라벨이 없는 음성 데이터에서 좋은 표현을 학습하는 것을 목표로 하며, 놀라운 진전을 이룩하였습니다. 그러나, 사전 훈련 과정에서 요구되는 방대한 계산 자원은 음성 SSL 모델의 잠재적인 적용과 최적화에 큰 장벽으로 작용하고 있습니다. 본 논문에서는 이미지 모달리티에서 data2vec 2.0의 성공과 음성 모달리티에서 Audio-MAE의 성공을 바탕으로, 음성 SSL의 효과性和效率性를 더욱 향상시키기 위해 Efficient Audio Transformer (EAT)를 제안합니다. 제안된 EAT는 부트스트랩 자기 감독 훈련 패러다임을 음성 영역에 적용합니다. 새로운 발화-프레임 목적함수(Utterance-Frame Objective, UFO)가 설계되어 음향 이벤트의 모델링 능력을 강화합니다. 또한, 우리는 마스킹 전략이 음성 SSL 사전 훈련에서 중요한 역할을 한다는 점을 밝히고, 큰 역블록 마스크를 사용하면 우수한 음성 표현을 얻을 수 있음을 보여줍니다. 실험 결과는 EAT가 AudioSet (AS-2M, AS-20K), ESC-50, SPC-2 등 다양한 음성 관련 작업에서 최고 수준(SOTA)의 성능을 달성하며, 기존 음성 SSL 모델 대비 최대 약 15배 빠른 사전 훈련 속도를 제공함을 입증하였습니다.

EAT: 효율적인 오디오 트랜스포머를 이용한 자기 지도 사전 학습 | 최신 연구 논문 | HyperAI초신경