HyperAIHyperAI

Command Palette

Search for a command to run...

Peut-on lire le discours au-delà des lèvres ? Repenser la sélection de la région d'intérêt pour la reconnaissance visuelle profonde du discours

Yuanhang Zhang Shuang Yang Jingyun Xiao Shiguang Shan Xilin Chen

Résumé

Les progrès récents du deep learning ont suscité un intérêt croissant chez les chercheurs en reconnaissance vocale visuelle (VSR). Actuellement, la plupart des méthodes existantes assimilent la VSR à la lecture des lèvres automatique, une approche visant à reconnaître le discours à partir de l’analyse du mouvement des lèvres. Toutefois, l’expérience humaine et les études psychologiques suggèrent que nous ne fixons pas toujours notre regard sur les lèvres de notre interlocuteur lors d’une conversation en face-à-face, mais plutôt que nous balayons répétitivement l’ensemble du visage. Cela nous inspire à réexaminer un problème fondamental, mais souvent négligé : les modèles de VSR peuvent-ils bénéficier de l’information provenant des régions faciales extra-orales, c’est-à-dire au-delà des lèvres ? Dans cet article, nous menons une étude approfondie pour évaluer l’impact de différentes régions faciales sur les modèles de VSR d’avant-garde, notamment la bouche, le visage entier, la partie supérieure du visage, voire les joues. Des expériences sont menées sur des benchmarks au niveau mot et au niveau phrase, présentant des caractéristiques variées. Nous constatons que, malgré les importantes variations présentes dans les données, l’intégration d’informations provenant des régions faciales extra-orales — y compris la partie supérieure du visage — améliore de manière cohérente les performances de la VSR. En outre, nous proposons une méthode simple mais efficace, basée sur la technique de Cutout, afin d’apprendre des caractéristiques plus discriminantes pour la VSR fondée sur le visage, dans le but de maximiser l’exploitation de l’information codée dans différentes régions du visage. Nos résultats montrent une amélioration significative par rapport aux méthodes d’état de l’art existantes qui utilisent uniquement la région des lèvres comme entrée, un résultat que nous pensons offrir à la communauté de la VSR de nouvelles et stimulantes perspectives.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Peut-on lire le discours au-delà des lèvres ? Repenser la sélection de la région d'intérêt pour la reconnaissance visuelle profonde du discours | Articles | HyperAI