End-to-End ASR: von überwachtem zu semi-überwachtem Lernen mit modernen Architekturen

Wir untersuchen das Pseudolabeling für die semi-supervised Schulung von ResNet-, Time-Depth-separable ConvNet- und Transformer-Architekturen für die Spracherkennung, jeweils mit CTC- oder Seq2Seq-Verlustfunktionen. Wir führen Experimente auf dem Standard-Datensatz LibriSpeech durch und nutzen zusätzliche unlabeled Daten aus LibriVox mittels Pseudolabeling. Wir zeigen, dass obwohl Transformer-basierte akustische Modelle allein mit überwachten Daten eine überlegene Leistung erzielen, die semi-supervised Lernstrategie alle Architekturen und Verlustfunktionen verbessert und einen Großteil der Leistungsunterschiede zwischen ihnen schließt. Auf diese Weise erreichen wir einen neuen SOTA (State-of-the-Art) für end-to-end akustische Modelle, die mit einem externen Sprachmodell decodiert werden, im klassischen überwachten Lernansatz, sowie einen neuen absoluten SOTA bei semi-supervised Training. Schließlich untersuchen wir den Einfluss unterschiedlicher Mengen an unlabeled Audio, schlagen mehrere Methoden zur Bewertung der Eigenschaften von unlabeled Audio vor, die die akustische Modellierung verbessern, und zeigen, dass akustische Modelle, die mit mehr Audio trainiert werden, weniger auf externe Sprachmodelle angewiesen sind.