HyperAIHyperAI

Command Palette

Search for a command to run...

Reconnaissance discriminative de parole multimodale

Bo Xu Cheng Lu Yandong Guo Jacob Wang

Résumé

La vision est fréquemment utilisée comme modalité complémentaire pour la reconnaissance automatique de la parole (ASR), notamment dans des environnements bruyants où les performances de la modalité audio seule déclinent fortement. En combinant la modalité visuelle, la reconnaissance de la parole évolue vers une reconnaissance multi-modale (MSR). Dans cet article, nous proposons un modèle de reconnaissance vocale en deux étapes. Dans la première étape, la voix cible est séparée du bruit ambiant grâce à l'information visuelle correspondante des mouvements des lèvres, permettant au modèle de « écouter » avec plus de clarté. À la deuxième étape, la modalité audio s'associe à nouveau à la modalité visuelle via un sous-réseau MSR, afin d'améliorer la compréhension de la parole et d'augmenter davantage le taux de reconnaissance. Parmi les autres contributions principales, nous introduisons un prétraitement visuel basé sur une convolution résiduelle pseudo-3D (P3D) pour extraire des caractéristiques plus discriminantes ; nous améliorons le bloc de convolution temporelle en remplaçant le 1D ResNet par un réseau de convolution temporelle (TCN), mieux adapté aux tâches temporelles ; enfin, le sous-réseau MSR repose sur une unité récurrente à attention élément par élément (EleAtt-GRU), qui s'avère plus efficace que le Transformer sur des séquences longues. Des expérimentations étendues ont été menées sur les jeux de données LRS3-TED et LRW. Notre modèle en deux étapes (reconnaissance multi-modale audio-améliorée, AE-MSR) atteint de manière cohérente des performances de pointe, avec une marge significative, démontrant ainsi la nécessité et l'efficacité du modèle AE-MSR.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp