HyperAIHyperAI

Command Palette

Search for a command to run...

Un autre point de vue sur la reconnaissance de la parole visuelle

Frederic Precioso Charles Bouveyron Giacomo Valenti Laurent Pilati Baptiste Pouthier

Résumé

Les systèmes classiques de reconnaissance de parole visuelle (VSR) traitent directement les images en tant que caractéristiques d’entrée, sans lien a priori entre les données brutes de pixels et les traits faciaux. L’information pixelisée est intelligemment filtrée lorsqu’on extrait des points caractéristiques du visage à partir des images, puis réutilisée comme nœuds de graphe. L’évolution de ces nœuds au fil du temps est ainsi modélisée à l’aide d’un réseau de convolution de graphe (Graph Convolutional Network). Toutefois, étant donné que la VSR basée sur les graphes est encore à un stade précoce de développement, le choix des points et leurs corrélations restent mal définis, souvent dépendants de connaissances a priori et de techniques manuelles. Dans cet article, nous explorons l’approche par graphe pour la VSR, ainsi que sa capacité à apprendre les corrélations entre points au-delà de la région buccale. Nous étudions également les contributions respectives de chaque région faciale à la précision du système, démontrant que des graphes plus éparpillés mais mieux connectés peuvent être à la fois légers sur le plan computationnel et hautement précis.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp