HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration de la formation des modèles d'attention de bout en bout pour la reconnaissance vocale

Albert Zeyer Kazuki Irie Ralf Schlüter Hermann Ney

Résumé

Les modèles de séquence à séquence basés sur l'attention utilisant des unités sous-mot permettent une reconnaissance vocale de bout en bout avec un vocabulaire ouvert simple. Dans ce travail, nous montrons que ces modèles peuvent obtenir des résultats compétitifs sur les tâches Switchboard 300h et LibriSpeech 1000h. En particulier, nous rapportons les taux d'erreur de mots (WER) les plus avancés à ce jour de 3,54 % sur l'ensemble d'évaluation dev-clean et de 3,82 % sur l'ensemble d'évaluation test-clean de LibriSpeech. Nous introduisons un nouveau schéma de préformation en commençant par un facteur de réduction temporelle élevé et en le diminuant au cours de la formation, ce qui est crucial pour la convergence et les performances finales. Dans certaines expériences, nous utilisons également une fonction de perte CTC auxiliaire pour aider à la convergence. De plus, nous formons des modèles de langage à mémoire à court et long terme (LSTM) sur des unités sous-mot. Par fusion superficielle, nous rapportons jusqu'à 27 % d'améliorations relatives du WER par rapport à la ligne de base basée sur l'attention sans modèle de langage.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp