Halbüberwachte Sequenz-zu-Sequenz-ASR mit unverpaarten Sprach- und Textdaten

Sequenz-zu-Sequenz-Automatische Spracherkennungsmodelle (ASR) benötigen große Datenmengen, um eine hohe Leistung zu erzielen. Aus diesem Grund hat es in letzter Zeit ein starkes Interesse an unüberwachten und schwach überwachten Trainingsmethoden für solche Modelle gegeben. Diese Arbeit baut auf jüngsten Ergebnissen auf, die bemerkenswerte Verbesserungen bei der schwach überwachten Training unter Verwendung von Zyklus-Consistenz und verwandten Techniken zeigen. Solche Techniken entwickeln Trainingsverfahren und Verlustfunktionen, die in der Lage sind, nicht gepaarte Sprach- und/oder Textdaten durch die Kombination von ASR mit Text-zu-Sprache (TTS)-Modellen zu nutzen. Insbesondere schlägt diese Arbeit einen neuen schwach überwachten Verlust vor, der einen end-to-end differenzierbaren ASR$\rightarrow$TTS-Verlust mit einem TTS$\rightarrow$ASR-Verlust kombiniert. Die Methode ist in der Lage, sowohl nicht gepaarte Sprach- als auch Textdaten zu nutzen, um in Bezug auf den WER (Word Error Rate) kürzlich vorgeschlagene verwandte Techniken zu übertreffen. Wir präsentieren umfangreiche Ergebnisse zur Analyse des Einflusses von Datenmengen und sprachlichen sowie textuellen Modalitäten und zeigen konsequente Verbesserungen in den Korpora WSJ und Librispeech. Unser Code wird in ESPnet bereitgestellt, um die Experimente reproduzieren zu können.