HyperAIHyperAI

Command Palette

Search for a command to run...

SPGISpeech: 5.000 Stunden transkribierter Finanzaudio für vollständig formatierte end-to-end Spracherkennung

Zusammenfassung

Bei der maschinellen Sprach-zu-Text-Übertragung (Speech-to-Text, STT) im Englischen werden akustische Modelle herkömmlicherweise auf kleinbuchstabierten lateinischen Text trainiert, während notwendige Orthographie (wie Großschreibung, Satzzeichen und die Normalisierung nicht-standardisierter Wörter) durch separate Nachbearbeitungsmodelle nachträglich ermittelt wird. Dies erhöht die Komplexität und begrenzt die Leistungsfähigkeit, da viele Formatierungsaspekte von semantischen Informationen profitieren, die im akustischen Signal enthalten sind, jedoch in der Transkription fehlen. In diesem Beitrag stellen wir eine neue STT-Aufgabe vor: end-to-end neuronale Transkription mit vollständig formatiertem Text als Zielbezeichnungen. Wir präsentieren Baseline-Conformer-Modelle, die auf einer Korpus von 5.000 Stunden professionell transkribierter Gewinn- und Verkaufsgespräche trainiert wurden und eine CER (Character Error Rate) von 1,7 erreichen. Als Beitrag an die STT-Forschungsgemeinschaft stellen wir das Korpus kostenlos für nicht-kommerzielle Nutzung unter https://datasets.kensho.com/datasets/scribe zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp