vor 7 Monaten

Zusammenfassung

Diese Arbeit untersucht die Nutzung automatisch gesammelter Web-Audio-Daten für die Aufgabe der Spracherkennung im gesprochenen Sprachgebrauch. Wir generieren halb-zufällige Suchbegriffe aus sprachspezifischen Wikipedia-Daten, die anschließend verwendet werden, um Videos aus YouTube für 107 Sprachen abzurufen. Durch die Anwendung von Sprachaktivitätserkennung (Speech Activity Detection) und Sprecherdiarisation werden aus den Videos Segmente extrahiert, die Sprache enthalten. Eine Nachfilterung dient dazu, Segmente aus der Datenbank zu entfernen, die wahrscheinlich nicht in der jeweiligen Sprache vorliegen, wodurch der Anteil korrekt beschrifteter Segmente auf 98 % ansteigt, wie durch crowdsourcing-basierte Überprüfung bestätigt wurde. Die Größe des resultierenden Trainingsdatensatzes (VoxLingua107) beträgt 6628 Stunden (durchschnittlich 62 Stunden pro Sprache) und wird durch eine Evaluationsmenge von 1609 verifizierten Äußerungen ergänzt. Wir nutzen die Daten, um Spracherkennungsmodelle für verschiedene Aufgaben der gesprochenen Sprachidentifikation zu entwickeln. Experimente zeigen, dass die Verwendung der automatisch abgerufenen Trainingsdaten Ergebnisse erzielt, die mit denen von handbeschrifteten, proprietären Datensätzen konkurrieren. Der Datensatz ist öffentlich zugänglich.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Datensatz

Audio- Und Sprachverarbeitung

Tanel Alumae Jorgen Valk

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Datensatz

Audio- Und Sprachverarbeitung

Tanel Alumae Jorgen Valk

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

VOXLINGUA107: Ein Datensatz für die Spracherkennung

Tanel Alumae Jorgen Valk

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

VOXLINGUA107: Ein Datensatz für die Spracherkennung

Tanel Alumae Jorgen Valk

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

VOXLINGUA107: Ein Datensatz für die Spracherkennung

Tanel Alumae Jorgen Valk

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters