HyperAIHyperAI

Command Palette

Search for a command to run...

VOXLINGUA107: Ein Datensatz für die Spracherkennung

Tanel Alumae Jorgen Valk

Zusammenfassung

Diese Arbeit untersucht die Nutzung automatisch gesammelter Web-Audio-Daten für die Aufgabe der Spracherkennung im gesprochenen Sprachgebrauch. Wir generieren halb-zufällige Suchbegriffe aus sprachspezifischen Wikipedia-Daten, die anschließend verwendet werden, um Videos aus YouTube für 107 Sprachen abzurufen. Durch die Anwendung von Sprachaktivitätserkennung (Speech Activity Detection) und Sprecherdiarisation werden aus den Videos Segmente extrahiert, die Sprache enthalten. Eine Nachfilterung dient dazu, Segmente aus der Datenbank zu entfernen, die wahrscheinlich nicht in der jeweiligen Sprache vorliegen, wodurch der Anteil korrekt beschrifteter Segmente auf 98 % ansteigt, wie durch crowdsourcing-basierte Überprüfung bestätigt wurde. Die Größe des resultierenden Trainingsdatensatzes (VoxLingua107) beträgt 6628 Stunden (durchschnittlich 62 Stunden pro Sprache) und wird durch eine Evaluationsmenge von 1609 verifizierten Äußerungen ergänzt. Wir nutzen die Daten, um Spracherkennungsmodelle für verschiedene Aufgaben der gesprochenen Sprachidentifikation zu entwickeln. Experimente zeigen, dass die Verwendung der automatisch abgerufenen Trainingsdaten Ergebnisse erzielt, die mit denen von handbeschrifteten, proprietären Datensätzen konkurrieren. Der Datensatz ist öffentlich zugänglich.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp