HyperAI
il y a 10 jours

VIRES : Repainting d'Instances Vidéo par Génération Guidée par Croquis et Texte

Shuchen Weng, Haojie Zheng, Peixuan Zhang, Yuchen Hong, Han Jiang, Si Li, Boxin Shi
VIRES : Repainting d'Instances Vidéo par Génération Guidée par Croquis et Texte
Résumé

Nous présentons VIRES, une méthode de repeinture d'instances vidéo guidée par esquisse et texte, permettant la repeinture, le remplacement, la génération et la suppression d'instances vidéo. Les approches existantes peinent à maintenir la cohérence temporelle et l'alignement précis avec la séquence d'esquisses fournie. VIRES exploite les a priori génératifs des modèles texte-vidéo pour assurer la cohérence temporelle et produire des résultats visuellement agréables. Nous proposons le Sequential ControlNet avec l'échelonnage auto-standardisé, qui extrait efficacement les dispositions structurales et capture de manière adaptative les détails d'esquisse à haute contraste. Nous enrichissons également le noyau du transformateur de diffusion avec l'attention à l'esquisse pour interpréter et injecter des sémantiques d'esquisse fines. Un encodeur sensible aux esquisses garantit que les résultats repeints sont alignés sur la séquence d'esquisses fournie. De plus, nous contribuons au VireSet, un ensemble de données doté d'annotations détaillées spécialement conçu pour l'entraînement et l'évaluation des méthodes d'édition d'instances vidéo. Les résultats expérimentaux démontrent l'efficacité de VIRES, qui surpassent les méthodes de pointe en termes de qualité visuelle, de cohérence temporelle, d'alignement conditionnel et de notes humaines. Page du projet : cette adresse URL (this https URL)