HyperAIHyperAI
il y a 17 jours

Reconnaissance automatique de la parole bout-en-bout : du apprentissage supervisé à l'apprentissage semi-supervisé avec des architectures modernes

Gabriel Synnaeve, Qiantong Xu, Jacob Kahn, Tatiana Likhomanenko, Edouard Grave, Vineel Pratap, Anuroop Sriram, Vitaliy Liptchinsky, Ronan Collobert
Reconnaissance automatique de la parole bout-en-bout : du apprentissage supervisé à l'apprentissage semi-supervisé avec des architectures modernes
Résumé

Nous étudions la pseudo-étiquetage pour l'entraînement semi-supervisé de modèles ResNet, Time-Depth Séparable ConvNets et Transformers en reconnaissance vocale, utilisant soit une fonction de perte CTC, soit une fonction de perte Seq2Seq. Nous menons des expériences sur le jeu de données standard LibriSpeech, tout en exploitant des données audio non étiquetées supplémentaires provenant de LibriVox via le pseudo-étiquetage. Nous montrons que bien que les modèles acoustiques basés sur les Transformers atteignent des performances supérieures lorsqu'ils sont entraînés uniquement de manière supervisée, la semi-supervision améliore tous les modèles indépendamment de l'architecture et de la fonction de perte, et réduit considérablement les écarts de performance entre eux. En ce faisant, nous atteignons un nouveau record absolu pour les modèles acoustiques end-to-end décodés à l’aide d’un modèle de langage externe dans le cadre standard d’apprentissage supervisé, ainsi qu’un nouveau record absolu en termes de performance absolue avec entraînement semi-supervisé. Enfin, nous analysons l’impact de l’utilisation de quantités variables de données audio non étiquetées, proposons plusieurs méthodes d’évaluation des caractéristiques des données audio non étiquetées qui améliorent la modélisation acoustique, et démontrons que les modèles acoustiques entraînés avec plus de données audio dépendent moins du modèle de langage externe.