HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

MATRIX : Alignement de trajectoires masquées pour la génération vidéo consciente des interactions

Siyoon Jin Seongchan Kim Dahyun Chung Jaeho Lee Hyunwook Choi Jisu Nam Jiyoung Kim Seungryong Kim

MATRIX : Alignement de trajectoires masquées pour la génération vidéo consciente des interactions

Résumé

Les modèles Video DiTs ont permis des progrès significatifs dans la génération vidéo, mais ils peinent encore à modéliser efficacement les interactions entre plusieurs instances ou entre sujets et objets. Cette limitation soulève une question fondamentale : comment ces modèles représentent-ils internement les interactions ? Pour y répondre, nous avons constitué MATRIX-11K, un jeu de données vidéo enrichi de légendes conscientes des interactions et de trajectoires de masques multi-instance. À l’aide de ce jeu de données, nous menons une analyse systématique qui formalise deux perspectives de fonctionnement des Video DiTs : le grounding sémantique, évalué par l’attention vidéo-texte, qui permet de vérifier si les tokens nominaux et verbaux capturent bien les instances et leurs relations ; et la propagation sémantique, évaluée par l’attention vidéo-vision, qui examine si les liens entre instances se maintiennent d’un cadre à l’autre. Nous constatons que ces deux effets se concentrent dans un petit sous-ensemble de couches dominées par les interactions. Inspirés par cette observation, nous proposons MATRIX, une régularisation simple et efficace qui aligne l’attention dans des couches spécifiques des Video DiTs avec les trajectoires de masques multi-instance du jeu de données MATRIX-11K, améliorant ainsi à la fois le grounding et la propagation sémantique. Nous introduisons également InterGenEval, un protocole d’évaluation dédié à la génération vidéo consciente des interactions. Dans nos expérimentations, MATRIX améliore à la fois la fidélité des interactions et l’alignement sémantique, tout en réduisant le dérive et les hallucinations. Des ablations étendues valident nos choix de conception. Les codes et les poids seront rendus publics.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MATRIX : Alignement de trajectoires masquées pour la génération vidéo consciente des interactions | Articles de recherche | HyperAI