il y a 17 jours

Modèle séquence-à-séquence à attention à tête unique pour des résultats de pointe sur Switchboard

Zoltán Tüske, George Saon, Kartik Audhkhasi, Brian Kingsbury

Résumé

On pense généralement que les modèles de reconnaissance vocale directe seq2seq ne sont compétitifs avec les modèles hybrides que lorsqu’un volume important de données, d’au moins mille heures, est disponible pour l’entraînement. Dans cet article, nous montrons qu’un rendement de reconnaissance de pointe peut être atteint sur la base de données Switchboard-300 à l’aide d’un modèle à base de LSTM utilisant une seule tête d’attention. Grâce à un modèle linguistique croisant les énoncés, notre système à passage unique, indépendant du locuteur, atteint des taux d’erreur de mot (WER) de 6,4 % et 12,5 % respectivement sur les sous-ensembles Switchboard et CallHome du Hub5’00, sans recourir à un lexique de prononciation. Bien que la régularisation soigneuse et l’augmentation des données soient essentielles pour atteindre ce niveau de performance, les expériences menées sur Switchboard-2000 montrent qu’aucun autre facteur n’est aussi utile que davantage de données. Dans l’ensemble, la combinaison de diverses techniques de régularisation et d’un modèle simple mais relativement volumineux permet d’établir un nouveau record d’état de l’art, avec des taux d’erreur de mot de 4,7 % et 7,8 % sur les ensembles Switchboard et CallHome, en utilisant uniquement les données de SWB-2000 sans aucune ressource externe.