HyperAIHyperAI
il y a 3 mois

Squeezeformer : Un Transformer efficace pour la reconnaissance automatique de la parole

Sehoon Kim, Amir Gholami, Albert Shaw, Nicholas Lee, Karttikeya Mangalam, Jitendra Malik, Michael W. Mahoney, Kurt Keutzer
Squeezeformer : Un Transformer efficace pour la reconnaissance automatique de la parole
Résumé

Le modèle Conformer récemment proposé est devenu le modèle de base par défaut pour diverses tâches vocales en aval, grâce à son architecture hybride attention-convolution qui permet de capturer à la fois des caractéristiques locales et globales. Toutefois, à travers une série d’études systématiques, nous constatons que les choix architecturaux du modèle Conformer ne sont pas optimaux. Après une réévaluation approfondie des décisions architecturales à la fois au niveau macro et micro, nous proposons Squeezeformer, un modèle qui surpasse de manière cohérente les modèles d’état de l’art en reconnaissance automatique de la parole (ASR) sous les mêmes conditions d’entraînement. En particulier, au niveau macro-architecture, Squeezeformer intègre : (i) une structure Temporal U-Net, qui réduit le coût des modules d’attention à plusieurs têtes sur des séquences longues ; et (ii) une structure de bloc simplifiée, composée d’un module d’attention à plusieurs têtes ou d’un module de convolution suivi d’un module d’alimentation avant, au lieu de la structure Macaron initialement proposée dans Conformer. Par ailleurs, au niveau micro-architecture, Squeezeformer : (i) simplifie les fonctions d’activation dans le bloc convolutionnel ; (ii) élimine les opérations redondantes de normalisation par couche (Layer Normalization) ; et (iii) intègre une couche efficace de sous-échantillonnage en profondeur (depthwise down-sampling) pour une sous-échantillonnage efficace du signal d’entrée. Squeezeformer atteint des résultats de pointe avec des taux d’erreur de mot (WER) de 7,5 %, 6,5 % et 6,0 % sur le test-other de LibriSpeech, sans recourir à des modèles linguistiques externes, soit une amélioration respective de 3,1 %, 1,4 % et 0,6 % par rapport à Conformer-CTC, pour un nombre de FLOPs équivalent. Notre code source est open-source et disponible en ligne.