15일 전

컨포머 기반 자기지도 학습을 통한 비음성 오디오 작업

Sangeeta Srivastava, Yun Wang, Andros Tjandra, Anurag Kumar, Chunxi Liu, Kritika Singh, Yatharth Saraf
컨포머 기반 자기지도 학습을 통한 비음성 오디오 작업
초록

라벨이 없는 데이터로부터의 표현 학습은 인공지능 연구 분야에서 주요 관심사로 부각되고 있다. 음성 분야에서는 자기지도 학습(self-supervised) 음성 표현 학습이 널리 사용되고 있으나, 비음성 음성 작업을 위한 음성 표현 학습에 대한 종합적인 분석은 매우 드물다. 본 논문에서는 자기지도 학습 기반의 음성 표현 학습 방법을 제안하고, 다양한 후속 비음성 음성 작업에 적용한다. 우리는 음성 작업에서 자기지도 학습 성공 사례로 알려진 wav2vec 2.0 프레임워크와 효율적인 파라미터 사용을 가능하게 하는 conformer 아키텍처를 결합한다. 제안하는 자기지도 사전학습 방식은 라벨이 부여된 데이터의 필요성을 약 2/3 감소시킬 수 있다. AudioSet 벤치마크에서 우리는 단일 오디오만을 이용한 자기지도 학습으로 기존 최고 성능을 넘어선 평균 정밀도(mAP) 0.415를 달성하였다. 또한, 미세조정된 conformer 모델은 여러 후속 작업에서 기존의 지도 학습 방식으로 사전학습된 시스템과 비교하여 성능을 초월하거나 동등하게 유지하였다. 마지막으로, 사전학습 및 미세조정 과정에서 고려해야 할 중요한 설계 요소들에 대해 논의한다.

컨포머 기반 자기지도 학습을 통한 비음성 오디오 작업 | 최신 연구 논문 | HyperAI초신경