VOXLINGUA107: Ein Datensatz für die Spracherkennung
Diese Arbeit untersucht die Nutzung automatisch gesammelter Web-Audio-Daten für die Aufgabe der Spracherkennung im gesprochenen Sprachgebrauch. Wir generieren halb-zufällige Suchbegriffe aus sprachspezifischen Wikipedia-Daten, die anschließend verwendet werden, um Videos aus YouTube für 107 Sprachen abzurufen. Durch die Anwendung von Sprachaktivitätserkennung (Speech Activity Detection) und Sprecherdiarisation werden aus den Videos Segmente extrahiert, die Sprache enthalten. Eine Nachfilterung dient dazu, Segmente aus der Datenbank zu entfernen, die wahrscheinlich nicht in der jeweiligen Sprache vorliegen, wodurch der Anteil korrekt beschrifteter Segmente auf 98 % ansteigt, wie durch crowdsourcing-basierte Überprüfung bestätigt wurde. Die Größe des resultierenden Trainingsdatensatzes (VoxLingua107) beträgt 6628 Stunden (durchschnittlich 62 Stunden pro Sprache) und wird durch eine Evaluationsmenge von 1609 verifizierten Äußerungen ergänzt. Wir nutzen die Daten, um Spracherkennungsmodelle für verschiedene Aufgaben der gesprochenen Sprachidentifikation zu entwickeln. Experimente zeigen, dass die Verwendung der automatisch abgerufenen Trainingsdaten Ergebnisse erzielt, die mit denen von handbeschrifteten, proprietären Datensätzen konkurrieren. Der Datensatz ist öffentlich zugänglich.