il y a un jour

EgoTwin : Corps et vue en première personne dans le rêve

Jingqiao Xiu, Fangzhou Hong, Yicong Li, Mengze Li, Wentao Wang, Sirui Han, Liang Pan, Ziwei Liu

Résumé

Bien que la synthèse vidéo exocentrique ait connu d’importants progrès, la génération vidéo égocentrique reste largement sous-exploree, nécessitant la modélisation du contenu vu du point de vue première personne, ainsi que des motifs de mouvement de la caméra induits par les mouvements corporels du porteur. Pour combler ce fossé, nous introduisons une nouvelle tâche de génération conjointe de vidéos égocentriques et de mouvements humains, caractérisée par deux défis clés : 1) Alignement du point de vue : la trajectoire de la caméra dans la vidéo générée doit s’aligner précisément avec la trajectoire de la tête déduite du mouvement humain ; 2) Interaction causale : le mouvement humain synthétisé doit être causalement cohérent avec la dynamique visuelle observée entre cadres vidéo adjacents. Pour relever ces défis, nous proposons EgoTwin, un cadre de génération conjointe vidéo-mouvement basé sur une architecture de transformateur à diffusion. Plus précisément, EgoTwin introduit une représentation du mouvement centrée sur la tête, qui ancre le mouvement humain au joint de la tête, et met en œuvre un mécanisme d’interaction inspiré de la cybernétique, qui capte explicitement l’interaction causale entre vidéo et mouvement au sein des opérations d’attention. Pour une évaluation complète, nous avons constitué un grand ensemble de données réelles, composé de triplets synchronisés texte-vidéo-mouvement, et conçu de nouvelles métriques pour évaluer la cohérence entre vidéo et mouvement. Des expériences étendues démontrent l’efficacité du cadre EgoTwin.