Reconnaissance audiovisuelle de la parole de bout en bout

Plusieurs approches d'apprentissage profond de bout en bout ont été récemment présentées, permettant d'extraire des caractéristiques audio ou visuelles à partir d'images d'entrée ou de signaux audio et de réaliser la reconnaissance vocale. Cependant, les recherches sur les modèles audiovisuels de bout en bout sont très limitées. Dans ce travail, nous présentons un modèle audiovisuel de bout en bout basé sur des réseaux résiduels et des unités récurrentes à portes bidirectionnelles (BGRUs). À notre connaissance, il s'agit du premier modèle de fusion audiovisuelle qui apprend simultanément à extraire des caractéristiques directement à partir des pixels des images et des formes d'onde audio, et qui effectue une reconnaissance de mots dans le contexte sur un grand ensemble de données publiquement disponible (LRW). Le modèle comprend deux flux, l'un pour chaque modalité, qui extraient des caractéristiques directement à partir des régions buccales et des formes d'onde brutes. Les dynamiques temporelles dans chaque flux/modalité sont modélisées par une BGRU à deux couches, et la fusion de plusieurs flux/modalités est réalisée par une autre BGRU à deux couches. Une légère amélioration du taux de classification par rapport aux modèles purement audio et basés sur les coefficients MFCC est signalée dans des conditions d'audio propre et à faible niveau de bruit. En présence de niveaux élevés de bruit, le modèle audiovisuel de bout en bout dépasse significativement les modèles purement audio.