HyperAIHyperAI

Command Palette

Search for a command to run...

Feinabstimmung von wav2vec2 für die Sprechererkennung

Nik Vaessen David A. van Leeuwen

Zusammenfassung

Diese Arbeit untersucht die Anwendung des wav2vec2-Frameworks für die Sprechererkennung anstelle der Spracherkennung. Wir analysieren die Wirksamkeit der vortrainierten Gewichte für die Sprechererkennungsaufgabe sowie verschiedene Ansätze zur Pooling-Operation der wav2vec2-Ausgabefolge zu einem festen Länge-Sprecher-Embedding. Um das Framework an die Sprechererkennung anzupassen, schlagen wir eine Ein-Satz-Klassifikationsvariante mit CE- oder AAM-Softmax-Verlust sowie eine Paar-Satz-Klassifikationsvariante mit BCE-Verlust vor. Die beste erzielte Variante, w2v2-aam, erreicht eine EER von 1,88 % auf dem erweiterten VoxCeleb1-Testset im Vergleich zu 1,69 % EER mit einer ECAPA-TDNN-Benchmark-Methode. Der Quellcode ist unter https://github.com/nikvaessen/w2v2-speaker verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp