Modélisation spatio-temporelle multi-grain pour la lecture labiale

La lecture labiale vise à reconnaître le contenu de la parole à partir de vidéos par l'analyse visuelle des mouvements des lèvres des locuteurs. Cette tâche est complexe en raison de l'existence d'homophones – mots qui impliquent des mouvements labiaux identiques ou très similaires – ainsi que des apparences et modèles de mouvement labial diversifiés parmi les locuteurs. Pour relever ces défis, nous proposons un nouveau modèle de lecture labiale qui capture non seulement les nuances entre les mots, mais aussi les styles de différents locuteurs, grâce à une modélisation spatio-temporelle multi-granulaire du processus de parole. Plus précisément, nous extrayons d'abord des caractéristiques fines au niveau des images et des caractéristiques moyennes à court terme par l'intermédiaire du front-end visuel, qui sont ensuite combinées pour obtenir des représentations discriminantes pour les mots avec des phonèmes similaires. Ensuite, un ConvLSTM bidirectionnel augmenté d'une attention temporelle agrège les informations spatio-temporelles sur toute la séquence d'entrée, ce qui devrait permettre de capturer les motifs grossiers de chaque mot et d'être robuste face aux différentes conditions liées à l'identité du locuteur, aux conditions d'éclairage, etc. En exploitant pleinement les informations provenant de différents niveaux dans un cadre unifié, le modèle est non seulement capable de distinguer les mots ayant des prononciations similaires, mais devient également robuste aux changements d'apparence. Nous évaluons notre méthode sur deux benchmarks difficiles de lecture labiale au niveau des mots et montrons l'efficacité de la méthode proposée, qui démontre également les affirmations ci-dessus.