17일 전

다중 작업 음성 활성화 프레임워크: 자기지도 학습을 활용한 방법

Shehzeen Hussain, Van Nguyen, Shuhua Zhang, Erik Visser
다중 작업 음성 활성화 프레임워크: 자기지도 학습을 활용한 방법
초록

wav2vec 2.0와 같은 자기지도 학습 방법은 레이블이 없고 음성 전사가 이루어지지 않은 음성 데이터로부터 음성 인식에 유용한 음성 표현을 학습하는 데 있어 희망적인 성과를 보여왔다. 이러한 표현들은 특정 작업에 대한 지도 신호 없이 학습되기 때문에, 화자 인증, 키워드 탐지, 감정 분류 등과 같은 다른 음성 활성화 작업에도 유용할 수 있다. 본 연구에서는 사전 훈련된 wav2vec 2.0 모델을 다양한 음성 활성화 작업에 적응시키기 위한 일반적인 프레임워크를 제안한다. 우리는 wav2vec 2.0의 문맥화된 음성 표현을 처리하는 하류 네트워크 아키텍처를 개발하여, 주어진 작업을 해결하기 위해 표현을 적응시키는 방법을 제시한다. 또한, 공유된 트랜스포머 백본을 사용하여 여러 음성 활성화 작업에 대해 동시에 네트워크 파라미터를 최적화함으로써, 다중 작업 학습을 수행할 수 있도록 프레임워크를 확장하였다. 본 연구에서 제안하는 단일 작업 및 다중 작업 프레임워크 모두 화자 인증 및 키워드 탐지 벤치마크에서 최신 기술 수준의 성능을 달성하였다. 특히, VoxCeleb2 데이터셋에서 훈련된 모델은 VoxCeleb1 테스트 세트에서 1.98%의 EER을, VoxCeleb1 데이터셋에서 훈련된 모델은 3.15%의 EER을 기록하였으며, Google Speech Commands v1.0 키워드 탐지 데이터셋에서는 98.23%의 정확도를 달성하였다.