HyperAIHyperAI
vor 17 Tagen

SPGISpeech: 5.000 Stunden transkribierter Finanzaudio für vollständig formatierte end-to-end Spracherkennung

Patrick K. O&#39, Neill, Vitaly Lavrukhin, Somshubra Majumdar, Vahid Noroozi, Yuekai Zhang, Oleksii Kuchaiev, Jagadeesh Balam, Yuliya Dovzhenko, Keenan Freyberg, Michael D. Shulman, Boris Ginsburg, Shinji Watanabe, Georg Kucsko
SPGISpeech: 5.000 Stunden transkribierter Finanzaudio für vollständig formatierte end-to-end Spracherkennung
Abstract

Bei der maschinellen Sprach-zu-Text-Übertragung (Speech-to-Text, STT) im Englischen werden akustische Modelle herkömmlicherweise auf kleinbuchstabierten lateinischen Text trainiert, während notwendige Orthographie (wie Großschreibung, Satzzeichen und die Normalisierung nicht-standardisierter Wörter) durch separate Nachbearbeitungsmodelle nachträglich ermittelt wird. Dies erhöht die Komplexität und begrenzt die Leistungsfähigkeit, da viele Formatierungsaspekte von semantischen Informationen profitieren, die im akustischen Signal enthalten sind, jedoch in der Transkription fehlen. In diesem Beitrag stellen wir eine neue STT-Aufgabe vor: end-to-end neuronale Transkription mit vollständig formatiertem Text als Zielbezeichnungen. Wir präsentieren Baseline-Conformer-Modelle, die auf einer Korpus von 5.000 Stunden professionell transkribierter Gewinn- und Verkaufsgespräche trainiert wurden und eine CER (Character Error Rate) von 1,7 erreichen. Als Beitrag an die STT-Forschungsgemeinschaft stellen wir das Korpus kostenlos für nicht-kommerzielle Nutzung unter https://datasets.kensho.com/datasets/scribe zur Verfügung.