HyperAIHyperAI

Command Palette

Search for a command to run...

Halbüberwachte Sequenz-zu-Sequenz-ASR mit unverpaarten Sprach- und Textdaten

Murali Karthick Baskar; Shinji Watanabe; Ramon Astudillo; Takaaki Hori; Lukáš Burget; Jan Černocký

Zusammenfassung

Sequenz-zu-Sequenz-Automatische Spracherkennungsmodelle (ASR) benötigen große Datenmengen, um eine hohe Leistung zu erzielen. Aus diesem Grund hat es in letzter Zeit ein starkes Interesse an unüberwachten und schwach überwachten Trainingsmethoden für solche Modelle gegeben. Diese Arbeit baut auf jüngsten Ergebnissen auf, die bemerkenswerte Verbesserungen bei der schwach überwachten Training unter Verwendung von Zyklus-Consistenz und verwandten Techniken zeigen. Solche Techniken entwickeln Trainingsverfahren und Verlustfunktionen, die in der Lage sind, nicht gepaarte Sprach- und/oder Textdaten durch die Kombination von ASR mit Text-zu-Sprache (TTS)-Modellen zu nutzen. Insbesondere schlägt diese Arbeit einen neuen schwach überwachten Verlust vor, der einen end-to-end differenzierbaren ASR\rightarrowTTS-Verlust mit einem TTS\rightarrowASR-Verlust kombiniert. Die Methode ist in der Lage, sowohl nicht gepaarte Sprach- als auch Textdaten zu nutzen, um in Bezug auf den WER (Word Error Rate) kürzlich vorgeschlagene verwandte Techniken zu übertreffen. Wir präsentieren umfangreiche Ergebnisse zur Analyse des Einflusses von Datenmengen und sprachlichen sowie textuellen Modalitäten und zeigen konsequente Verbesserungen in den Korpora WSJ und Librispeech. Unser Code wird in ESPnet bereitgestellt, um die Experimente reproduzieren zu können.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Halbüberwachte Sequenz-zu-Sequenz-ASR mit unverpaarten Sprach- und Textdaten | Paper | HyperAI