HyperAIHyperAI
vor 17 Tagen

Ein vergleichender Studienüberblick über Transformer vs. RNN in Sprachanwendungen

Shigeki Karita, Nanxin Chen, Tomoki Hayashi, Takaaki Hori, Hirofumi Inaguma, Ziyan Jiang, Masao Someki, Nelson Enrique Yalta Soplin, Ryuichi Yamamoto, Xiaofei Wang, Shinji Watanabe, Takenori Yoshimura, Wangyou Zhang
Ein vergleichender Studienüberblick über Transformer vs. RNN in Sprachanwendungen
Abstract

Sequenz-zu-Sequenz-Modelle werden weit verbreitet in end-to-end-Sprachverarbeitung eingesetzt, beispielsweise bei der automatischen Spracherkennung (ASR), der Sprachübersetzung (ST) und der Sprachsynthese (TTS). In dieser Arbeit konzentrieren wir uns auf ein neuartiges Sequenz-zu-Sequenz-Modell namens Transformer, das bahnbrechende Leistungen in der neuronalen Maschinenübersetzung sowie anderen Anwendungen der natürlichen Sprachverarbeitung erzielt. Wir führten umfangreiche Untersuchungen durch, in denen wir Transformer und herkömmliche rekurrente neuronale Netze (RNN) an insgesamt 15 ASR-, einer mehrsprachigen ASR-, einer ST- und zwei TTS-Benchmark-Aufgaben experimentell verglichen und analysiert haben. Unsere Experimente ergaben verschiedene Trainingsstrategien sowie erhebliche Leistungsverbesserungen durch Transformer für jede Aufgabe, wobei sich die überraschende Überlegenheit von Transformer gegenüber RNN in 13 von 15 ASR-Benchmarks zeigte. Wir bereiten derzeit die Veröffentlichung von Kaldi-ähnlichen, reproduzierbaren Rezepten unter Verwendung von Open-Source- und öffentlich verfügbaren Datensätzen für alle ASR-, ST- und TTS-Aufgaben vor, um der Forschungsgemeinschaft die Weiterführung unserer vielversprechenden Ergebnisse zu ermöglichen.