Reconnaissance vocale de pointe utilisant une attention auto-supervisée multi-flux avec des convolutions 1D dilatées

L’attention auto-associative a connu un succès considérable pour de nombreuses tâches en traitement du langage naturel (NLP), ce qui a incité à explorer son application aux problèmes de parole. Toutefois, son efficacité dans les applications vocales ne semble pas encore pleinement exploitée, en raison des difficultés inhérentes à la gestion de cadres vocaux fortement corrélés dans le cadre de l’attention auto-associative. Dans cet article, nous proposons une nouvelle architecture de réseau neuronal, nommée attention auto-associative à flux multiples, afin de surmonter ce problème et d’améliorer ainsi l’efficacité du mécanisme d’attention auto-associative pour la reconnaissance vocale. L’architecture proposée repose sur des flux parallèles d’encodeurs à attention auto-associative, chacun composé de couches de convolution 1D à noyaux dilatés dont les taux de dilatation sont uniques par flux, suivies d’une couche d’attention auto-associative. Dans chaque flux, le mécanisme d’attention se concentre uniquement sur une résolution donnée des cadres d’entrée, ce qui permet un calcul plus efficace. Dans une phase ultérieure, les sorties de tous les flux sont concaténées puis projetées linéairement vers un vecteur d’embedding final. En empilant plusieurs blocs d’encodeurs à attention auto-associative à flux multiples et en recalibrant les grilles résultantes à l’aide de modèles linguistiques à réseau neuronal, nous atteignons un taux d’erreur de mot de 2,2 % sur le jeu de données test-clean du corpus LibriSpeech, le meilleur résultat rapporté à ce jour sur ce jeu de données.