HyperAIHyperAI
il y a 17 jours

Une étude comparative entre Transformer et RNN dans les applications vocales

Shigeki Karita, Nanxin Chen, Tomoki Hayashi, Takaaki Hori, Hirofumi Inaguma, Ziyan Jiang, Masao Someki, Nelson Enrique Yalta Soplin, Ryuichi Yamamoto, Xiaofei Wang, Shinji Watanabe, Takenori Yoshimura, Wangyou Zhang
Une étude comparative entre Transformer et RNN dans les applications vocales
Résumé

Les modèles séquence-à-séquence ont été largement utilisés dans le traitement vocal d’extrémité à extrémité, par exemple pour la reconnaissance automatique de la parole (ASR), la traduction vocale (ST) et la synthèse vocale (TTS). Ce papier se concentre sur un modèle séquence-à-séquence émergent appelé Transformer, qui atteint des performances de pointe dans la traduction automatique neuronale et d’autres applications du traitement du langage naturel. Nous avons mené des études approfondies, comparant expérimentalement et analysant en détail Transformer et les réseaux de neurones récurrents (RNN) conventionnels sur un total de 15 benchmarks ASR, un benchmark multilingue ASR, un benchmark ST et deux benchmarks TTS. Nos expériences ont révélé diverses astuces d’entraînement ainsi que des avantages significatifs en performance offerts par Transformer pour chaque tâche, notamment une supériorité surprenante de Transformer dans 13 sur les 15 benchmarks ASR par rapport aux RNN. Nous préparons actuellement la mise à disposition de recettes reproductibles au style Kaldi, basées sur des jeux de données open source et accessibles publiquement, pour toutes les tâches ASR, ST et TTS, afin que la communauté puisse reproduire et prolonger nos résultats prometteurs.