Reconnaissance discriminative de parole multimodale

La vision est fréquemment utilisée comme modalité complémentaire pour la reconnaissance automatique de la parole (ASR), notamment dans des environnements bruyants où les performances de la modalité audio seule déclinent fortement. En combinant la modalité visuelle, la reconnaissance de la parole évolue vers une reconnaissance multi-modale (MSR). Dans cet article, nous proposons un modèle de reconnaissance vocale en deux étapes. Dans la première étape, la voix cible est séparée du bruit ambiant grâce à l'information visuelle correspondante des mouvements des lèvres, permettant au modèle de « écouter » avec plus de clarté. À la deuxième étape, la modalité audio s'associe à nouveau à la modalité visuelle via un sous-réseau MSR, afin d'améliorer la compréhension de la parole et d'augmenter davantage le taux de reconnaissance. Parmi les autres contributions principales, nous introduisons un prétraitement visuel basé sur une convolution résiduelle pseudo-3D (P3D) pour extraire des caractéristiques plus discriminantes ; nous améliorons le bloc de convolution temporelle en remplaçant le 1D ResNet par un réseau de convolution temporelle (TCN), mieux adapté aux tâches temporelles ; enfin, le sous-réseau MSR repose sur une unité récurrente à attention élément par élément (EleAtt-GRU), qui s'avère plus efficace que le Transformer sur des séquences longues. Des expérimentations étendues ont été menées sur les jeux de données LRS3-TED et LRW. Notre modèle en deux étapes (reconnaissance multi-modale audio-améliorée, AE-MSR) atteint de manière cohérente des performances de pointe, avec une marge significative, démontrant ainsi la nécessité et l'efficacité du modèle AE-MSR.