Au-delà du Transformer universel : réutilisation de blocs avec adaptateur dans le Transformer pour la reconnaissance automatique de la parole

Les modèles basés sur Transformer ont récemment obtenu des résultats significatifs dans le domaine de la reconnaissance automatique de la parole (ASR) en mode end-to-end (E2E). Il devient désormais possible de déployer des systèmes ASR E2E sur des dispositifs intelligents grâce à ces modèles basés sur Transformer. Toutefois, ces modèles souffrent encore d’un inconvénient majeur : leur nécessité d’un grand nombre de paramètres. Afin de surmonter cette limitation des modèles Transformer universels dans le contexte du déploiement d’ASR sur des dispositifs à la périphérie (edge devices), nous proposons une solution permettant de réutiliser les blocs au sein des modèles Transformer pour des systèmes ASR à faible empreinte, tout en respectant l’objectif d’adaptation aux contraintes de ressources sans compromettre la précision de reconnaissance. Plus précisément, nous avons conçu une nouvelle stratégie de réutilisation de blocs pour les Transformers vocaux (BRST), visant à améliorer l’efficacité des paramètres, et introduit un module adaptateur (ADM) capable de générer un modèle compact et adaptable en n’ajoutant qu’un nombre réduit de paramètres entraînables à chaque bloc réutilisé. Des expérimentations menées sur le corpus public AISHELL-1 ont montré que la méthode proposée atteint un taux d’erreur de caractères (CER) de 9,3 %/6,63 % avec seulement 7,6 M/8,3 M paramètres, respectivement sans et avec l’ADM. En outre, une analyse approfondie a été réalisée afin d’évaluer l’impact du module ADM dans le cadre général de la réutilisation de blocs.