Zipformer : un encodeur plus rapide et plus performant pour la reconnaissance automatique de parole

Le Conformer est devenu le modèle d’encodeur le plus populaire pour la reconnaissance automatique de la parole (ASR). Il intègre des modules de convolution au sein d’un Transformer afin d’apprendre à la fois des dépendances locales et globales. Dans ce travail, nous présentons un Transformer plus rapide, plus efficace en mémoire et performant, appelé Zipformer. Les modifications apportées au modèle incluent : 1) une architecture d’encodeur inspirée du U-Net, où les blocs centraux fonctionnent à des taux d’échantillonnage plus faibles ; 2) une réorganisation de la structure par blocs avec un plus grand nombre de modules, dans laquelle les poids d’attention sont réutilisés pour améliorer l’efficacité ; 3) une variante modifiée de la normalisation par couche, appelée BiasNorm, qui permet de préserver certaines informations de longueur ; 4) de nouvelles fonctions d’activation, SwooshR et SwooshL, qui se révèlent plus performantes que Swish. Nous proposons également un nouvel optimiseur, nommé ScaledAdam, qui ajuste chaque mise à jour en fonction de l’échelle actuelle de chaque tenseur, afin de maintenir un changement relatif constant, tout en apprenant explicitement l’échelle des paramètres. Ce nouvel optimiseur permet une convergence plus rapide et une meilleure performance que Adam. Des expérimentations étendues sur les jeux de données LibriSpeech, Aishell-1 et WenetSpeech démontrent l’efficacité de notre modèle Zipformer par rapport aux autres modèles d’ASR de pointe. Le code est disponible publiquement à l’adresse suivante : https://github.com/k2-fsa/icefall.