HyperAIHyperAI

Command Palette

Search for a command to run...

Reconnaissance vocale de pointe utilisant une attention auto-supervisée multi-flux avec des convolutions 1D dilatées

Kyu J. Han Ramon Prieto Kaixing Wu Tao Ma

Résumé

L’attention auto-associative a connu un succès considérable pour de nombreuses tâches en traitement du langage naturel (NLP), ce qui a incité à explorer son application aux problèmes de parole. Toutefois, son efficacité dans les applications vocales ne semble pas encore pleinement exploitée, en raison des difficultés inhérentes à la gestion de cadres vocaux fortement corrélés dans le cadre de l’attention auto-associative. Dans cet article, nous proposons une nouvelle architecture de réseau neuronal, nommée attention auto-associative à flux multiples, afin de surmonter ce problème et d’améliorer ainsi l’efficacité du mécanisme d’attention auto-associative pour la reconnaissance vocale. L’architecture proposée repose sur des flux parallèles d’encodeurs à attention auto-associative, chacun composé de couches de convolution 1D à noyaux dilatés dont les taux de dilatation sont uniques par flux, suivies d’une couche d’attention auto-associative. Dans chaque flux, le mécanisme d’attention se concentre uniquement sur une résolution donnée des cadres d’entrée, ce qui permet un calcul plus efficace. Dans une phase ultérieure, les sorties de tous les flux sont concaténées puis projetées linéairement vers un vecteur d’embedding final. En empilant plusieurs blocs d’encodeurs à attention auto-associative à flux multiples et en recalibrant les grilles résultantes à l’aide de modèles linguistiques à réseau neuronal, nous atteignons un taux d’erreur de mot de 2,2 % sur le jeu de données test-clean du corpus LibriSpeech, le meilleur résultat rapporté à ce jour sur ce jeu de données.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Reconnaissance vocale de pointe utilisant une attention auto-supervisée multi-flux avec des convolutions 1D dilatées | Articles | HyperAI