16일 전

음성 감정 인식, 화자 확인 및 구두 언어 이해를 위한 미세 조정된 Wav2vec 2.0/HuBERT 벤치마크

Yingzhi Wang, Abdelmoumene Boumadane, Abdelwahab Heba
음성 감정 인식, 화자 확인 및 구두 언어 이해를 위한 미세 조정된 Wav2vec 2.0/HuBERT 벤치마크
초록

음성 자기지도 학습 모델인 wav2vec 2.0 및 HuBERT는 자동 음성 인식(ASR) 분야에서 혁신적인 성과를 거두고 있다. 그러나 이러한 모델이 ASR를 제외한 다른 작업에서 더 뛰어난 성능을 보인다는 점은 완전히 입증된 바는 아니다. 본 연구에서는 wav2vec 2.0 및 HuBERT 사전 학습 모델을 활용하여 음성 정서 인식(Speech Emotion Recognition), 화자 확인(Speaker Verification), 구두 언어 이해(Spoken Language Understanding)이라는 세 가지 비-ASR 음성 작업에 대해 부분 미세조정(partial fine-tuning)과 전체 미세조정(entire fine-tuning)을 탐색하였다. 간단히 제안한 다운스트림 프레임워크를 사용함으로써, IEMOCAP 데이터셋에서 화자 의존 설정에서는 최고 79.58%의 가중 정확도, 화자 독립 설정에서는 73.01%의 가중 정확도를 달성하였으며, VoxCeleb1 데이터셋에서는 화자 확인 작업에서 2.36%의 동등 오류율(Equal Error Rate, EER)을 기록하였다. 또한 SLURP 데이터셋에서는 의도 분류(Intent Classification)에서 89.38%의 정확도, 슬롯 채우기(Slot Filling)에서 78.92%의 F1 점수를 달성하였다. 이러한 결과는 미세조정된 wav2vec 2.0 및 HuBERT가 음성의 유성 특성(prosodic), 음성 지문(voice-print), 의미적 표현(semantic representation)을 효과적으로 학습할 수 있음을 보여주며, 다양한 음성 기반 작업에 대한 강력한 잠재력을 입증한다.

음성 감정 인식, 화자 확인 및 구두 언어 이해를 위한 미세 조정된 Wav2vec 2.0/HuBERT 벤치마크 | 최신 연구 논문 | HyperAI초신경