HyperAIHyperAI

Command Palette

Search for a command to run...

Wav2Seq: Vortrainierte Sprache-zu-Text-Encoder-Decoder-Modelle unter Verwendung von Pseudo-Sprachen

Felix Wu Kwangyoun Kim Shinji Watanabe Kyu Han Ryan McDonald Kilian Q. Weinberger Yoav Artzi

Zusammenfassung

Wir stellen Wav2Seq vor, den ersten selbstüberwachten Ansatz zur Vortrainierung beider Teile von Encoder-Decoder-Modellen für Sprachdaten. Wir leiten eine Pseudosprache als kompakte diskrete Darstellung ab und formulieren eine selbstüberwachte Pseudospracherkennungsaufgabe – die Umwandlung von Audioeingaben in Pseudosubwortsequenzen. Dieser Prozess kann eigenständig eingesetzt werden oder als kostengünstige zweite Trainingsphase angewandt werden. Wir testen den Ansatz anhand von automatischer Spracherkennung (ASR), gesprochener Namensentitäten-Erkennung und Sprache-zu-Text-Übersetzung. Wir erzielen neue SOTA-Ergebnisse für end-to-end gesprochene Namensentitäten-Erkennung und zeigen konsistente Verbesserungen bei 20 Sprachpaaren bei der Sprache-zu-Text-Übersetzung, selbst wenn vergleichbare Methoden zusätzliche Textdaten für das Training nutzen. Schließlich ermöglicht unser Ansatz bei der ASR, dass Encoder-Decoder-Methoden von einer Vortrainierung für alle Netzwerkteile profitieren, und erreicht eine Leistung, die mit hochoptimierten jüngeren Methoden vergleichbar ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp