VIRES : Redessin Vidéo À Double Guidage Esquisse-texte
1. Introduction au tutoriel

VIRES est une méthode de redessin d'instances vidéo combinant croquis et guidage textuel. Elle a été proposée en 2025 par le Laboratoire d'intelligence des caméras de l'Université de Pékin (équipe de Shi Baixin), en collaboration avec OpenBayes Bayesian Computing et l'équipe du professeur associé Li Si du Laboratoire de reconnaissance de formes de l'École d'intelligence artificielle de l'Université des postes et télécommunications de Pékin. Elle prend en charge diverses opérations d'édition, telles que le redessin, le remplacement, la génération et la suppression de sujets vidéo. Cette méthode utilise les connaissances préalables du modèle vidéo généré par le texte pour garantir la cohérence temporelle. Elle propose également un réseau de contrôle séquentiel (Sequential ControlNet) doté d'un mécanisme de mise à l'échelle adaptative standardisé, capable d'extraire efficacement les dispositions structurelles et de capturer de manière adaptative les détails des croquis à fort contraste. De plus, l'équipe de recherche a introduit un mécanisme d'attention aux croquis dans le réseau fédérateur DiT (transformateur de diffusion) pour interpréter et injecter une sémantique d'esquisse fine. Les résultats expérimentaux montrent que VIRES surpasse les modèles SOTA existants sur de nombreux aspects, tels que la qualité vidéo, la cohérence temporelle, l'alignement conditionnel et les évaluations des utilisateurs.
Les recherches connexes sont basées surVIRES : Redessin d'instances vidéo via la génération guidée par croquis et texte", a été sélectionné pour CVPR 2025.
Ce tutoriel utilise des ressources pour une seule carte A6000.
2. Exemples de projets

3. Étapes de l'opération
1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Une fois que vous entrez sur la page Web, vous pouvez utiliser le modèle
Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.
Comment utiliser

Description des paramètres :
- Échelle d'orientation CFG : Force d'orientation inconditionnelle.
- Nombre d'étapes d'échantillonnage : Nombre d'étapes d'échantillonnage.
- Image de départ : modifiez l'image de départ.
Informations sur la citation
@article{vires,
title={VIRES: Video Instance Repainting via Sketch and Text Guided Generation},
author={Weng, Shuchen and Zheng, Haojie and Zhang, Peixuan and Hong, Yuchen and Jiang, Han and Li, Si and Shi, Boxin},
booktitle={Proceedings of the Computer Vision and Pattern Recognition Conference},
pages={28416--28425},
year={2025}
}