WenetSpeech: Ein mehrdomäner Mandarinkorpus mit über 10.000 Stunden für die Spracherkennung

In dieser Arbeit stellen wir WenetSpeech vor, ein mult-domänen chinesisches Korpus, das mehr als 10.000 Stunden hochwertig annotierter Sprache, über 2.400 Stunden schwach annotierter Sprache und etwa 10.000 Stunden unannotierter Sprache umfasst, insgesamt 22.400+ Stunden. Die Daten wurden von YouTube und Podcasts gesammelt und umfassen eine Vielzahl von Sprechstilen, Szenarien, Domänen, Themen und Rauschbedingungen. Eine auf optischer Zeichenerkennung (OCR) basierende Methode wird vorgestellt, um Audios/Text-Segmentierungskandidaten für die YouTube-Daten anhand der entsprechenden Videobeschreibungen zu generieren, während ein hochwertiges automatisches Spracherkennungssystem (ASR) verwendet wird, um Audios/Text-Paar-Kandidaten für die Podcast-Daten zu erzeugen. Anschließend schlagen wir einen neuen end-to-end Ansatz zur Erkennung und Filterung von Labelfehlern vor, um die Kandidaten weiter zu validieren. Zudem stellen wir drei manuell annotierte hochwertige Testsets bereit, die zusammen mit WenetSpeech zur Bewertung dienen: Dev für Kreuzvalidierungszwecke während des Trainings, Test_Net, das aus dem Internet gesammelt wurde für übereinstimmende Tests, und Test_Meeting, das aus echten Meetings aufgezeichnet wurde für anspruchsvollere nicht übereinstimmende Tests. Baseline-Systeme, die mit WenetSpeech trainiert wurden, werden für drei gängige Speech-Erkennungs-Toolkits bereitgestellt: Kaldi, ESPnet und WeNet; außerdem werden die Erkennungsergebnisse auf den drei Testsets als Benchmarks angeboten. Nach bestem Wissen ist WenetSpeech derzeit das größte öffentlich verfügbare chinesische Sprachkorpus mit Transkriptionen und fördert somit die Forschung im Bereich der produktionstauglichen Spracherkennung.