HyperAIHyperAI

Command Palette

Search for a command to run...

Une étude comparative entre Transformer et RNN dans les applications vocales

Résumé

Les modèles séquence-à-séquence ont été largement utilisés dans le traitement vocal d’extrémité à extrémité, par exemple pour la reconnaissance automatique de la parole (ASR), la traduction vocale (ST) et la synthèse vocale (TTS). Ce papier se concentre sur un modèle séquence-à-séquence émergent appelé Transformer, qui atteint des performances de pointe dans la traduction automatique neuronale et d’autres applications du traitement du langage naturel. Nous avons mené des études approfondies, comparant expérimentalement et analysant en détail Transformer et les réseaux de neurones récurrents (RNN) conventionnels sur un total de 15 benchmarks ASR, un benchmark multilingue ASR, un benchmark ST et deux benchmarks TTS. Nos expériences ont révélé diverses astuces d’entraînement ainsi que des avantages significatifs en performance offerts par Transformer pour chaque tâche, notamment une supériorité surprenante de Transformer dans 13 sur les 15 benchmarks ASR par rapport aux RNN. Nous préparons actuellement la mise à disposition de recettes reproductibles au style Kaldi, basées sur des jeux de données open source et accessibles publiquement, pour toutes les tâches ASR, ST et TTS, afin que la communauté puisse reproduire et prolonger nos résultats prometteurs.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp