Wav2Seq: Vortrainierte Sprache-zu-Text-Encoder-Decoder-Modelle unter Verwendung von Pseudo-Sprachen

Wir stellen Wav2Seq vor, den ersten selbstüberwachten Ansatz zur Vortrainierung beider Teile von Encoder-Decoder-Modellen für Sprachdaten. Wir leiten eine Pseudosprache als kompakte diskrete Darstellung ab und formulieren eine selbstüberwachte Pseudospracherkennungsaufgabe – die Umwandlung von Audioeingaben in Pseudosubwortsequenzen. Dieser Prozess kann eigenständig eingesetzt werden oder als kostengünstige zweite Trainingsphase angewandt werden. Wir testen den Ansatz anhand von automatischer Spracherkennung (ASR), gesprochener Namensentitäten-Erkennung und Sprache-zu-Text-Übersetzung. Wir erzielen neue SOTA-Ergebnisse für end-to-end gesprochene Namensentitäten-Erkennung und zeigen konsistente Verbesserungen bei 20 Sprachpaaren bei der Sprache-zu-Text-Übersetzung, selbst wenn vergleichbare Methoden zusätzliche Textdaten für das Training nutzen. Schließlich ermöglicht unser Ansatz bei der ASR, dass Encoder-Decoder-Methoden von einer Vortrainierung für alle Netzwerkteile profitieren, und erreicht eine Leistung, die mit hochoptimierten jüngeren Methoden vergleichbar ist.