Maximisation de l'information mutuelle pour une lecture labiale efficace

La lecture des lèvres a suscité un intérêt croissant dans les dernières années en raison du développement rapide du deep learning et de ses nombreuses applications potentielles. Un enjeu clé pour atteindre de bonnes performances dans cette tâche repose fortement sur la capacité à représenter efficacement les mouvements des lèvres tout en résistant aux perturbations provenant des variations de pose, des conditions d’éclairage, de l’apparence du locuteur, etc. Dans cette optique, nous proposons d’introduire des contraintes basées sur l’information mutuelle à la fois au niveau des caractéristiques locales et au niveau de la séquence globale, afin d’améliorer la relation entre les caractéristiques et le contenu vocal. D’une part, nous imposons une contrainte de maximisation de l’information mutuelle locale (LMIM) à chaque pas temporel, afin que les caractéristiques générées soient fortement corrélées au contenu vocal. Cette approche améliore ainsi la capacité du modèle à détecter des mouvements labiaux fins ainsi que les différences subtiles entre des mots ayant une prononciation similaire, comme « spend » et « spending ». D’autre part, nous introduisons une contrainte de maximisation de l’information mutuelle au niveau global de la séquence (GMIM), afin que le modèle se concentre davantage sur les cadres clés liés au contenu vocal, tout en réduisant son attention portée aux diverses sources de bruit apparaissant au cours de la parole. En combinant ces deux avantages, la méthode proposée est susceptible d’être à la fois discriminante et robuste, ce qui la rend particulièrement adaptée à la lecture des lèvres efficace. Pour valider cette approche, nous l’évaluons sur deux grands jeux de données de référence. Une analyse détaillée est menée sur plusieurs aspects, notamment la comparaison entre les méthodes LMIM et GMIM et le modèle de base, ainsi que la visualisation des représentations apprises. Les résultats démontrent non seulement l’efficacité de la méthode proposée, mais également son succès dans l’atteinte d’un nouveau record sur les deux benchmarks.