GigaSpeech: Ein sich entwickelndes, mehrdomänenübergreifendes ASR-Korpus mit 10.000 Stunden transkribierter Audioaufnahmen

Diese Arbeit stellt GigaSpeech vor, einen sich weiterentwickelnden, mehrdomänenbasierten englischen Spracherkennungskorpus mit 10.000 Stunden hochwertig annotierter Audioaufnahmen, die für überwachtes Training geeignet sind, sowie insgesamt 40.000 Stunden Audio, die für halb- und unüberwachtes Training nutzbar sind. Etwa 40.000 Stunden transkribierter Audioinhalte werden zunächst aus Hörbüchern, Podcasts und YouTube gesammelt und umfassen sowohl gelesene als auch spontane Sprechstile sowie eine Vielzahl von Themen wie Kunst, Wissenschaft, Sport usw. Es wird ein neuer Algorithmus zur erzwungenen Ausrichtung und Segmentierung vorgestellt, um Satzsegmente zu generieren, die für das Spracherkennungstraining geeignet sind, sowie zur Filterung von Segmenten mit geringer Transkriptionsqualität. Für das Modelltraining stellt GigaSpeech fünf Untergruppen unterschiedlicher Größe bereit: 10 h, 250 h, 1.000 h, 2.500 h und 10.000 h. Für unsere 10.000-Stunden-XL-Trainingsuntergruppe wird der Wortfehlerquote im Filter- und Validierungsstadium auf 4 % begrenzt, während für alle kleineren Trainingsuntergruppen die Grenze bei 0 % liegt. Die DEV- und TEST-Evaluationssätze werden hingegen erneut von professionellen menschlichen Transkribenten verarbeitet, um eine hohe Transkriptionsqualität sicherzustellen. Baseline-Systeme werden für gängige Spracherkennungstoolkits wie Athena, ESPnet, Kaldi und Pika bereitgestellt.