SyncVSR : Reconnaissance visuelle de la parole efficace en termes de données avec une synchronisation croisée modale des jetons audio de bout en bout

La Reconnaissance Visuelle de la Parole (RVP) se situe à l'intersection de la vision par ordinateur et de la reconnaissance vocale, visant à interpréter le contenu parlé à partir d'indices visuels. Un défi majeur en RVP est la présence d'homophènes – des gestes labiaux visuellement similaires qui représentent différents phonèmes. Les approches précédentes ont cherché à distinguer les visèmes de manière fine en alignant les sémantiques visuelles et auditives, mais elles n'ont souvent pas réussi à atteindre une synchronisation complète. Pour remédier à cela, nous présentons SyncVSR, un cadre d'apprentissage de bout en bout qui utilise l'audio quantifié pour une supervision intermodale au niveau des images. En intégrant une couche de projection qui synchronise la représentation visuelle avec les données acoustiques, notre encodeur apprend à générer des jetons audio discrets à partir d'une séquence vidéo de manière non autoregressive. SyncVSR montre une polyvalence dans diverses tâches, langues et modalités, au prix d'un passage en avant. Nos évaluations empiriques montrent qu'il non seulement atteint des résultats de pointe mais réduit également l'utilisation des données jusqu'à neuf fois.