HyperAIHyperAI

Command Palette

Search for a command to run...

SyncVSR : Reconnaissance visuelle de la parole efficace en termes de données avec une synchronisation croisée modale des jetons audio de bout en bout

Young Jin Ahn Jungwoo Park Sangha Park Jonghyun Choi Kee-Eung Kim

Résumé

La Reconnaissance Visuelle de la Parole (RVP) se situe à l'intersection de la vision par ordinateur et de la reconnaissance vocale, visant à interpréter le contenu parlé à partir d'indices visuels. Un défi majeur en RVP est la présence d'homophènes – des gestes labiaux visuellement similaires qui représentent différents phonèmes. Les approches précédentes ont cherché à distinguer les visèmes de manière fine en alignant les sémantiques visuelles et auditives, mais elles n'ont souvent pas réussi à atteindre une synchronisation complète. Pour remédier à cela, nous présentons SyncVSR, un cadre d'apprentissage de bout en bout qui utilise l'audio quantifié pour une supervision intermodale au niveau des images. En intégrant une couche de projection qui synchronise la représentation visuelle avec les données acoustiques, notre encodeur apprend à générer des jetons audio discrets à partir d'une séquence vidéo de manière non autoregressive. SyncVSR montre une polyvalence dans diverses tâches, langues et modalités, au prix d'un passage en avant. Nos évaluations empiriques montrent qu'il non seulement atteint des résultats de pointe mais réduit également l'utilisation des données jusqu'à neuf fois.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp