HyperAIHyperAI

Command Palette

Search for a command to run...

Ein vergleichender Studienüberblick über Transformer vs. RNN in Sprachanwendungen

Zusammenfassung

Sequenz-zu-Sequenz-Modelle werden weit verbreitet in end-to-end-Sprachverarbeitung eingesetzt, beispielsweise bei der automatischen Spracherkennung (ASR), der Sprachübersetzung (ST) und der Sprachsynthese (TTS). In dieser Arbeit konzentrieren wir uns auf ein neuartiges Sequenz-zu-Sequenz-Modell namens Transformer, das bahnbrechende Leistungen in der neuronalen Maschinenübersetzung sowie anderen Anwendungen der natürlichen Sprachverarbeitung erzielt. Wir führten umfangreiche Untersuchungen durch, in denen wir Transformer und herkömmliche rekurrente neuronale Netze (RNN) an insgesamt 15 ASR-, einer mehrsprachigen ASR-, einer ST- und zwei TTS-Benchmark-Aufgaben experimentell verglichen und analysiert haben. Unsere Experimente ergaben verschiedene Trainingsstrategien sowie erhebliche Leistungsverbesserungen durch Transformer für jede Aufgabe, wobei sich die überraschende Überlegenheit von Transformer gegenüber RNN in 13 von 15 ASR-Benchmarks zeigte. Wir bereiten derzeit die Veröffentlichung von Kaldi-ähnlichen, reproduzierbaren Rezepten unter Verwendung von Open-Source- und öffentlich verfügbaren Datensätzen für alle ASR-, ST- und TTS-Aufgaben vor, um der Forschungsgemeinschaft die Weiterführung unserer vielversprechenden Ergebnisse zu ermöglichen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp