HyperAIHyperAI
vor 17 Tagen

Iteratives Pseudo-Labeling für die Spracherkennung

Qiantong Xu, Tatiana Likhomanenko, Jacob Kahn, Awni Hannun, Gabriel Synnaeve, Ronan Collobert
Iteratives Pseudo-Labeling für die Spracherkennung
Abstract

Pseudo-Labeling hat in jüngster Zeit viel Versprechen in der end-to-end-automatischen Spracherkennung (ASR) gezeigt. Wir untersuchen das iterative Pseudo-Labeling (IPL), einen semi-supervisierten Algorithmus, der effizient mehrere Iterationen des Pseudo-Labeling auf unlabeled Daten durchführt, während sich das akustische Modell weiterentwickelt. Insbesondere feinjustiert IPL in jeder Iteration ein bestehendes Modell sowohl anhand gelabelter Daten als auch einer Teilmenge unlabeled Daten. Wir analysieren die zentralen Komponenten von IPL: die Dekodierung mit einem Sprachmodell und die Daten-Augmentation. Anschließend demonstrieren wir die Wirksamkeit von IPL, indem wir auf den Librispeech-Testsets sowohl in Standard- als auch in Low-Resource-Szenarien den derzeitigen Stand der Technik bezüglich der Wortfehlerquote erreichen. Außerdem untersuchen wir den Einfluss von Sprachmodellen, die auf unterschiedlichen Korpora trainiert wurden, um zu zeigen, dass IPL zusätzliche Textdaten effektiv nutzen kann. Schließlich veröffentlichen wir ein neues großes, in-domain Textkorpus, das keine Überlappung mit den Transkriptionen aus dem Librispeech-Trainingsdatensatz aufweist, um die Forschung im Bereich der Low-Resource- und semi-supervised ASR zu fördern.