HyperAIHyperAI
il y a 17 jours

Reconnaissance automatique de la parole basée sur Transformer intégrant une couche de réduction temporelle et une mise au point par distillation de connaissance auto-supervisée

Md Akmal Haidar, Chao Xing, Mehdi Rezagholizadeh
Reconnaissance automatique de la parole basée sur Transformer intégrant une couche de réduction temporelle et une mise au point par distillation de connaissance auto-supervisée
Résumé

La reconnaissance automatique de la parole (ASR) end-to-end, contrairement à l’ASR conventionnelle, ne dispose pas de modules dédiés à l’apprentissage de représentations sémantiques à partir du codeur de parole. De plus, le taux de trame élevé des représentations de parole empêche le modèle d’apprendre efficacement ces représentations sémantiques. Par conséquent, les modèles fondés sur un codeur de parole à taux de trame plus faible offrent généralement de meilleures performances. Dans le cas des modèles ASR basés sur le Transformer, un taux de trame réduit est non seulement essentiel pour améliorer l’apprentissage de représentations sémantiques, mais aussi pour réduire la complexité computationnelle, en raison de la mécanique d’attention auto-attentionnelle dont la complexité est de l’ordre de O(n²) à la fois pendant l’entraînement et pendant l’inférence. Dans cet article, nous proposons un modèle ASR basé sur le Transformer intégrant une couche de réduction temporelle, dans laquelle nous insérons une couche de réduction temporelle à l’intérieur des couches du codeur Transformer, en complément des méthodes traditionnelles de sous-échantillonnage appliquées aux caractéristiques d’entrée, afin de réduire davantage le taux de trame. Cette approche permet ainsi de réduire significativement le coût computationnel du processus d’attention auto-attentionnelle, tout en améliorant les performances. En outre, nous introduisons une méthode d’ajustement fin (fine-tuning) pour les modèles ASR pré-entraînés basée sur une distillation de connaissance auto-orientée (S-KD), qui permet d’obtenir une amélioration supplémentaire des performances. Des expériences sur le jeu de données LibriSpeech montrent que nos méthodes proposées surpassent toutes les autres architectures ASR basées sur le Transformer. En outre, en combinant avec un modèle de langage (LM), nous atteignons de nouveaux records d’erreur de mot (WER) pour les modèles ASR basés sur le Transformer, avec seulement 30 millions de paramètres, entraînés sans aucune donnée externe.