il y a 9 jours

Peut-on lire le discours au-delà des lèvres ? Repenser la sélection de la région d'intérêt pour la reconnaissance visuelle profonde du discours

Yuanhang Zhang, Shuang Yang, Jingyun Xiao, Shiguang Shan, Xilin Chen

Résumé

Les progrès récents du deep learning ont suscité un intérêt croissant chez les chercheurs en reconnaissance vocale visuelle (VSR). Actuellement, la plupart des méthodes existantes assimilent la VSR à la lecture des lèvres automatique, une approche visant à reconnaître le discours à partir de l’analyse du mouvement des lèvres. Toutefois, l’expérience humaine et les études psychologiques suggèrent que nous ne fixons pas toujours notre regard sur les lèvres de notre interlocuteur lors d’une conversation en face-à-face, mais plutôt que nous balayons répétitivement l’ensemble du visage. Cela nous inspire à réexaminer un problème fondamental, mais souvent négligé : les modèles de VSR peuvent-ils bénéficier de l’information provenant des régions faciales extra-orales, c’est-à-dire au-delà des lèvres ? Dans cet article, nous menons une étude approfondie pour évaluer l’impact de différentes régions faciales sur les modèles de VSR d’avant-garde, notamment la bouche, le visage entier, la partie supérieure du visage, voire les joues. Des expériences sont menées sur des benchmarks au niveau mot et au niveau phrase, présentant des caractéristiques variées. Nous constatons que, malgré les importantes variations présentes dans les données, l’intégration d’informations provenant des régions faciales extra-orales — y compris la partie supérieure du visage — améliore de manière cohérente les performances de la VSR. En outre, nous proposons une méthode simple mais efficace, basée sur la technique de Cutout, afin d’apprendre des caractéristiques plus discriminantes pour la VSR fondée sur le visage, dans le but de maximiser l’exploitation de l’information codée dans différentes régions du visage. Nos résultats montrent une amélioration significative par rapport aux méthodes d’état de l’art existantes qui utilisent uniquement la région des lèvres comme entrée, un résultat que nous pensons offrir à la communauté de la VSR de nouvelles et stimulantes perspectives.