HyperAIHyperAI
il y a 11 jours

Un autre point de vue sur la reconnaissance de la parole visuelle

{Frederic Precioso, Charles Bouveyron, Giacomo Valenti, Laurent Pilati, Baptiste Pouthier}
Un autre point de vue sur la reconnaissance de la parole visuelle
Résumé

Les systèmes classiques de reconnaissance de parole visuelle (VSR) traitent directement les images en tant que caractéristiques d’entrée, sans lien a priori entre les données brutes de pixels et les traits faciaux. L’information pixelisée est intelligemment filtrée lorsqu’on extrait des points caractéristiques du visage à partir des images, puis réutilisée comme nœuds de graphe. L’évolution de ces nœuds au fil du temps est ainsi modélisée à l’aide d’un réseau de convolution de graphe (Graph Convolutional Network). Toutefois, étant donné que la VSR basée sur les graphes est encore à un stade précoce de développement, le choix des points et leurs corrélations restent mal définis, souvent dépendants de connaissances a priori et de techniques manuelles. Dans cet article, nous explorons l’approche par graphe pour la VSR, ainsi que sa capacité à apprendre les corrélations entre points au-delà de la région buccale. Nous étudions également les contributions respectives de chaque région faciale à la précision du système, démontrant que des graphes plus éparpillés mais mieux connectés peuvent être à la fois légers sur le plan computationnel et hautement précis.

Un autre point de vue sur la reconnaissance de la parole visuelle | Articles de recherche récents | HyperAI