HyperAIHyperAI

Command Palette

Search for a command to run...

Console
il y a 17 heures

Structure From Tracking : Distiller le Mouvement Préserveur de la Structure pour la Génération Vidéo

Yang Fei George Stoica Jingyuan Liu Qifeng Chen Ranjay Krishna Xiaojuan Wang Benlin Liu

Structure From Tracking : Distiller le Mouvement Préserveur de la Structure pour la Génération Vidéo

Résumé

La réalité est un équilibre entre des contraintes rigides et des structures déformables. Pour les modèles vidéo, cela signifie générer un mouvement qui préserve à la fois la fidélité et la structure. Malgré les progrès réalisés dans les modèles de diffusion, la génération de mouvements réalistes tout en préservant la structure reste un défi, en particulier pour les objets articulés et déformables tels que les êtres humains et les animaux. L’augmentation de la taille des données d’entraînement, jusqu’à présent, n’a pas permis de résoudre les transitions physiquement invraisemblables. Les approches existantes reposent sur une conditionnalité à l’aide de représentations bruitées du mouvement, comme le flux optique ou les squelettes extraits à l’aide d’un modèle externe imparfait. Pour relever ces défis, nous proposons un algorithme permettant de distiller des priorités de mouvement préservant la structure à partir d’un modèle vidéo autoregressif de suivi (SAM2) vers un modèle de diffusion vidéo bidirectionnel (CogVideoX). Grâce à notre méthode, nous entraînons SAM2VideoX, qui intègre deux innovations : (1) un module de fusion de caractéristiques bidirectionnel qui extrait des priorités de mouvement préservant la structure à partir d’un modèle récurrent comme SAM2 ; (2) une perte de flux de Gram local qui aligne le mouvement conjoint des caractéristiques locales. Des expériences menées sur VBench ainsi que des études sur des humains montrent que SAM2VideoX obtient des gains constants par rapport aux méthodes antérieures (+2,60 % sur VBench, une réduction de 21 à 22 % du FVD, et une préférence humaine de 71,4 %). Plus précisément, sur VBench, nous atteignons 95,51 %, dépassant REPA (92,91 %) de 2,60 %, tout en réduisant le FVD à 360,57, soit une amélioration de 21,20 % et 22,46 % par rapport à REPA et à la fine-tuning par LoRA, respectivement. Le site du projet est disponible à l’adresse suivante : https://sam2videox.github.io/.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp