Un Modèle en Cascade de Séquence à Séquence pour la Lecture Labiale du Chinois Mandarine

La lecture labiale vise à décoder des textes à partir du mouvement de la bouche d'un locuteur. Ces dernières années, les méthodes de lecture labiale ont connu des progrès considérables pour l'anglais, tant au niveau des mots que des phrases. Contrairement à l'anglais, le mandarin chinois est une langue tonale qui s'appuie sur les hauteurs de tons pour distinguer le sens lexical ou grammatical, ce qui augmente considérablement l'ambiguïté de la tâche de lecture labiale. Dans cet article, nous proposons un modèle en cascade séquence-à-séquence pour la lecture labiale du mandarin chinois (CSSMCM), qui modélise explicitement les tons lors de la prédiction des phrases. Les tons sont modélisés en fonction des informations visuelles et de la structure syntaxique, et sont utilisés pour prédire les phrases conjointement avec ces informations visuelles et cette structure syntaxique. Pour évaluer le CSSMCM, un ensemble de données appelé CMLR (Chinese Mandarin Lip Reading) a été collecté et publié, composé de plus de 100 000 phrases naturelles provenant du site web de China Network Television. Lorsqu'il est entraîné sur l'ensemble de données CMLR, le modèle CSSMCM proposé dépasse les performances des frameworks de lecture labiale les plus avancés actuellement disponibles, ce qui confirme l'efficacité de la modélisation explicite des tons pour la lecture labiale du mandarin chinois.