Command Palette
Search for a command to run...
VideoCanvas : Complétion vidéo unifiée à partir de morceaux spatio-temporels arbitraires par conditionnement in-context
Minghong Cai Qiulin Wang Zongli Ye Wenze Liu Quande Liu Weicai Ye Xintao Wang Pengfei Wan Kun Gai Xiangyu Yue

Résumé
Nous introduisons la tâche de complétion vidéo arbitraire spatio-temporelle, dans laquelle une vidéo est générée à partir de patches arbitraires, spécifiés par l’utilisateur, placés à n’importe quelle position spatiale et à n’importe quel instant, analogue à la peinture sur une toile vidéo. Cette formulation souple unifie naturellement de nombreuses tâches existantes de génération vidéo contrôlable — notamment la génération vidéo à partir d’une image de première frame, le remplissage (inpainting), l’extension et l’interpolation — sous une même et cohérente approche. Toutefois, la réalisation de cette vision se heurte à une difficulté fondamentale dans les modèles modernes de diffusion vidéo en espace latent : l’ambiguïté temporelle induite par les VAE causaux, où plusieurs trames pixel sont compressées en une seule représentation latente, rendant la conditionnement au niveau des trames précisément structuralement difficile. Nous surmontons ce défi grâce à VideoCanvas, un cadre novateur qui adapte le paradigme de conditionnement in-context (ICC) à cette tâche de contrôle à très fine granularité, sans ajouter de nouveaux paramètres. Nous proposons une stratégie hybride de conditionnement qui dédouble le contrôle spatial et temporel : la position spatiale est gérée par un remplissage par zéro (zero-padding), tandis que l’alignement temporel est obtenu via une interpolation de Temporal RoPE (Rotary Position Embedding), qui attribue à chaque condition une position fractionnaire continue au sein de la séquence latente. Cette approche résout l’ambiguïté temporelle du VAE et permet un contrôle sensible aux trames pixel sur un modèle de base figé (frozen backbone). Pour évaluer cette nouvelle capacité, nous avons développé VideoCanvasBench, le premier benchmark dédié à la complétion vidéo arbitraire spatio-temporelle, couvrant à la fois la fidélité intra-scène et la créativité inter-scène. Les expérimentations démontrent que VideoCanvas surpasse significativement les paradigmes de conditionnement existants, établissant un nouvel état de l’art dans la génération vidéo flexible et unifiée.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.