HyperAIHyperAI
vor 16 Tagen

Feinabstimmung von wav2vec2 für die Sprechererkennung

Nik Vaessen, David A. van Leeuwen
Feinabstimmung von wav2vec2 für die Sprechererkennung
Abstract

Diese Arbeit untersucht die Anwendung des wav2vec2-Frameworks für die Sprechererkennung anstelle der Spracherkennung. Wir analysieren die Wirksamkeit der vortrainierten Gewichte für die Sprechererkennungsaufgabe sowie verschiedene Ansätze zur Pooling-Operation der wav2vec2-Ausgabefolge zu einem festen Länge-Sprecher-Embedding. Um das Framework an die Sprechererkennung anzupassen, schlagen wir eine Ein-Satz-Klassifikationsvariante mit CE- oder AAM-Softmax-Verlust sowie eine Paar-Satz-Klassifikationsvariante mit BCE-Verlust vor. Die beste erzielte Variante, w2v2-aam, erreicht eine EER von 1,88 % auf dem erweiterten VoxCeleb1-Testset im Vergleich zu 1,69 % EER mit einer ECAPA-TDNN-Benchmark-Methode. Der Quellcode ist unter https://github.com/nikvaessen/w2v2-speaker verfügbar.

Feinabstimmung von wav2vec2 für die Sprechererkennung | Neueste Forschungsarbeiten | HyperAI