HyperAIHyperAI
vor 17 Tagen

Wav2Seq: Vortrainierte Sprache-zu-Text-Encoder-Decoder-Modelle unter Verwendung von Pseudo-Sprachen

Felix Wu, Kwangyoun Kim, Shinji Watanabe, Kyu Han, Ryan McDonald, Kilian Q. Weinberger, Yoav Artzi
Wav2Seq: Vortrainierte Sprache-zu-Text-Encoder-Decoder-Modelle unter Verwendung von Pseudo-Sprachen
Abstract

Wir stellen Wav2Seq vor, den ersten selbstüberwachten Ansatz zur Vortrainierung beider Teile von Encoder-Decoder-Modellen für Sprachdaten. Wir leiten eine Pseudosprache als kompakte diskrete Darstellung ab und formulieren eine selbstüberwachte Pseudospracherkennungsaufgabe – die Umwandlung von Audioeingaben in Pseudosubwortsequenzen. Dieser Prozess kann eigenständig eingesetzt werden oder als kostengünstige zweite Trainingsphase angewandt werden. Wir testen den Ansatz anhand von automatischer Spracherkennung (ASR), gesprochener Namensentitäten-Erkennung und Sprache-zu-Text-Übersetzung. Wir erzielen neue SOTA-Ergebnisse für end-to-end gesprochene Namensentitäten-Erkennung und zeigen konsistente Verbesserungen bei 20 Sprachpaaren bei der Sprache-zu-Text-Übersetzung, selbst wenn vergleichbare Methoden zusätzliche Textdaten für das Training nutzen. Schließlich ermöglicht unser Ansatz bei der ASR, dass Encoder-Decoder-Methoden von einer Vortrainierung für alle Netzwerkteile profitieren, und erreicht eine Leistung, die mit hochoptimierten jüngeren Methoden vergleichbar ist.