HyperAIHyperAI
vor 17 Tagen

Europarl-ASR: Eine große Korpus-parlamentarischer Debatten für die Streaming-ASR-Benchmarking und Sprachdaten-Filterung/Verbatimisierung

{Alfons Juan, Albert Sanchis, Jorge Civera, Alejandro Pérez-González-de-Martos, Nahuel Roselló, Pau Baquero-Arnal, Javier Iranzo-Sánchez, Adrià Giménez Pastor, Javier Jorge, Joan-Albert Silvestre-Cerdà, Gonçal V. Garcés Díaz-Munío}
Abstract

Wir stellen Europarl-ASR vor, einen umfangreichen Sprach- und Textkorpus parlamentarischer Debatten mit insgesamt 1.300 Stunden transkribierter Reden und 70 Millionen Token an Text in Englisch, die aus Sitzungen des Europäischen Parlaments extrahiert wurden. Der Trainingsdatensatz ist mit den offiziellen, nicht vollständig wörtlichen Transkripten des Parlaments beschriftet und zeitlich aligniert. Da die Wörtlichkeit für die Ausbildung akustischer Modelle entscheidend ist, stellen wir zudem automatisch geräuschgefilterte und automatisch wörtlich transkribierte Versionen aller Reden bereit, basierend auf Techniken zur Sprachdatenfilterung und Wörtlichmachung (verbatimization). Zusätzlich wurden 18 Stunden transkribierter Reden manuell wörtlich transkribiert, um zuverlässige, sprecherabhängige und sprecherunabhängige Entwicklung- und Testsets für die Benchmarking von Streaming-ASR bereitzustellen. Die Verfügbarkeit manueller nicht-wörtlicher und wörtlicher Transkripte für die Entwicklung- und Testreden macht diesen Korpus besonders nützlich für die Bewertung automatischer Filter- und Wörtlichmachungstechniken. In diesem Beitrag beschreiben wir den Korpus sowie seine Erstellung und stellen Offline- sowie Streaming-ASR-Baselines für sowohl sprecherabhängige als auch sprecherunabhängige Aufgaben unter Verwendung der drei Trainings-Transkriptsätze bereit. Der Korpus wird unter einer offenen Lizenz öffentlich bereitgestellt.