15일 전

speaker 인식을 위한 wav2vec2의 피니튜닝

Nik Vaessen, David A. van Leeuwen
speaker 인식을 위한 wav2vec2의 피니튜닝
초록

이 논문은 wav2vec2 프레임워크를 음성 인식 대신 발화자 인식에 적용하는 것을 탐구한다. 본 연구에서는 사전 학습된 가중치가 발화자 인식 작업에 얼마나 효과적인지와, wav2vec2의 출력 시퀀스를 고정 길이의 발화자 임베딩으로 어떻게 풀링할 수 있는지를 검토한다. 발화자 인식에 맞게 프레임워크를 적응시키기 위해, 교차 엔트로피(Cross-Entropy, CE) 또는 AAM 소프트맥스 손실을 사용하는 단일 발화 분류 변형과, 이진 분류 손실(Binary Cross-Entropy, BCE)을 사용하는 발화 쌍 분류 변형을 제안한다. 가장 우수한 성능을 보인 변형인 w2v2-aam은 확장된 VoxCeleb1 테스트 세트에서 1.88%의 EER(Equal Error Rate)를 기록하였으며, 이는 ECAPA-TDNN 기준 모델의 1.69% EER에 비해 다소 낮은 성능이다. 코드는 https://github.com/nikvaessen/w2v2-speaker 에서 제공된다.

speaker 인식을 위한 wav2vec2의 피니튜닝 | 최신 연구 논문 | HyperAI초신경