Date

il y a 8 mois

Taille

48.17 MB

Balises

Traitement Vidéo

Licence

Apache 2.0

GitHub

suimuc/VIRES

URL du document

2411.16199

1. Introduction au tutoriel

VIRES est une méthode de redessin d'instances vidéo combinant croquis et guidage textuel. Elle a été proposée en 2025 par le Laboratoire d'intelligence des caméras de l'Université de Pékin (équipe de Shi Baixin), en collaboration avec OpenBayes Bayesian Computing et l'équipe du professeur associé Li Si du Laboratoire de reconnaissance de formes de l'École d'intelligence artificielle de l'Université des postes et télécommunications de Pékin. Elle prend en charge diverses opérations d'édition, telles que le redessin, le remplacement, la génération et la suppression de sujets vidéo. Cette méthode utilise les connaissances préalables du modèle vidéo généré par le texte pour garantir la cohérence temporelle. Elle propose également un réseau de contrôle séquentiel (Sequential ControlNet) doté d'un mécanisme de mise à l'échelle adaptative standardisé, capable d'extraire efficacement les dispositions structurelles et de capturer de manière adaptative les détails des croquis à fort contraste. De plus, l'équipe de recherche a introduit un mécanisme d'attention aux croquis dans le réseau fédérateur DiT (transformateur de diffusion) pour interpréter et injecter une sémantique d'esquisse fine. Les résultats expérimentaux montrent que VIRES surpasse les modèles SOTA existants sur de nombreux aspects, tels que la qualité vidéo, la cohérence temporelle, l'alignement conditionnel et les évaluations des utilisateurs.

Recherche connexe VIRES : Redessin d'instances vidéo via la génération guidée par croquis et texte Le sujet a été sélectionné pour CVPR 2025.

Ce tutoriel utilise des ressources pour une seule carte A6000.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Une fois que vous entrez sur la page Web, vous pouvez utiliser le modèle

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Comment utiliser

Description des paramètres :

Échelle d'orientation CFG : Force d'orientation inconditionnelle.
Nombre d'étapes d'échantillonnage : Nombre d'étapes d'échantillonnage.
Image de départ : modifiez l'image de départ.

Informations sur la citation

@article{vires,
      title={VIRES: Video Instance Repainting via Sketch and Text Guided Generation},
      author={Weng, Shuchen and Zheng, Haojie and Zhang, Peixuan and Hong, Yuchen and Jiang, Han and Li, Si and Shi, Boxin},
      booktitle={Proceedings of the Computer Vision and Pattern Recognition Conference},
      pages={28416--28425},
      year={2025}
}

Ce notebook est fourni par des utilisateurs de la communauté et est destiné à des fins éducatives et informatives uniquement. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour un examen et un retrait rapides.

Associé Notebooks

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Exécuter ce Notebook

Date

il y a 8 mois

Taille

48.17 MB

Balises

Traitement Vidéo

Licence

Apache 2.0

GitHub

suimuc/VIRES

URL du document

2411.16199

1. Introduction au tutoriel

Recherche connexe VIRES : Redessin d'instances vidéo via la génération guidée par croquis et texte Le sujet a été sélectionné pour CVPR 2025.

Ce tutoriel utilise des ressources pour une seule carte A6000.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Une fois que vous entrez sur la page Web, vous pouvez utiliser le modèle

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Comment utiliser

Description des paramètres :

Échelle d'orientation CFG : Force d'orientation inconditionnelle.
Nombre d'étapes d'échantillonnage : Nombre d'étapes d'échantillonnage.
Image de départ : modifiez l'image de départ.

Informations sur la citation

@article{vires,
      title={VIRES: Video Instance Repainting via Sketch and Text Guided Generation},
      author={Weng, Shuchen and Zheng, Haojie and Zhang, Peixuan and Hong, Yuchen and Jiang, Han and Li, Si and Shi, Boxin},
      booktitle={Proceedings of the Computer Vision and Pattern Recognition Conference},
      pages={28416--28425},
      year={2025}
}

Associé Notebooks

LongCat-Video : Le Modèle De Génération Vidéo IA Open Source De Meituan

il y a 3 mois

Krea-realtime-video : Modèle De Génération Vidéo En Temps Réel

il y a 3 mois

SAM3 : Modèle De Segmentation Visuelle

il y a 2 mois

F5-E2 TTS Clone n'importe Quel Son En Seulement 3 Secondes

il y a 2 mois

FLUX.2-dev : Modèle De Génération Et D’édition D’images

il y a 2 mois

Supertonic : Un Modèle De Synthèse Vocale TTS Haute Vitesse Basé Sur ONNX

il y a 2 mois

ROCKET-2 : Transfert Zero-Shot Du Jeu 3D

il y a 3 mois

Ovis-Image : Modèle De Génération d'images De Haute Qualité

il y a 2 mois

JarvisArt - Aperçu Du Proxy De Retouche Photo Intelligent

il y a un mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

VIRES : Redessin Vidéo À Double Guidage esquisse-texte

1. Introduction au tutoriel

2. Exemples de projets

3. Étapes de l'opération

Informations sur la citation

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VIRES : Redessin Vidéo À Double Guidage esquisse-texte

1. Introduction au tutoriel

2. Exemples de projets

3. Étapes de l'opération

Informations sur la citation

Associé Notebooks

LongCat-Video : Le Modèle De Génération Vidéo IA Open Source De Meituan

Krea-realtime-video : Modèle De Génération Vidéo En Temps Réel

SAM3 : Modèle De Segmentation Visuelle

F5-E2 TTS Clone n'importe Quel Son En Seulement 3 Secondes

FLUX.2-dev : Modèle De Génération Et D’édition D’images

Supertonic : Un Modèle De Synthèse Vocale TTS Haute Vitesse Basé Sur ONNX

ROCKET-2 : Transfert Zero-Shot Du Jeu 3D

Ovis-Image : Modèle De Génération d'images De Haute Qualité

JarvisArt - Aperçu Du Proxy De Retouche Photo Intelligent

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VIRES : Redessin Vidéo À Double Guidage esquisse-texte

1. Introduction au tutoriel

2. Exemples de projets

3. Étapes de l'opération

Informations sur la citation

Associé Notebooks

LongCat-Video : Le Modèle De Génération Vidéo IA Open Source De Meituan

Krea-realtime-video : Modèle De Génération Vidéo En Temps Réel

SAM3 : Modèle De Segmentation Visuelle

F5-E2 TTS Clone n'importe Quel Son En Seulement 3 Secondes

FLUX.2-dev : Modèle De Génération Et D’édition D’images

Supertonic : Un Modèle De Synthèse Vocale TTS Haute Vitesse Basé Sur ONNX

ROCKET-2 : Transfert Zero-Shot Du Jeu 3D

Ovis-Image : Modèle De Génération d'images De Haute Qualité

JarvisArt - Aperçu Du Proxy De Retouche Photo Intelligent

Créer de l'IA avec l'IA

HyperAI Newsletters

Associé Notebooks

LongCat-Video : Le Modèle De Génération Vidéo IA Open Source De Meituan

Krea-realtime-video : Modèle De Génération Vidéo En Temps Réel

SAM3 : Modèle De Segmentation Visuelle

F5-E2 TTS Clone n'importe Quel Son En Seulement 3 Secondes

FLUX.2-dev : Modèle De Génération Et D’édition D’images

Supertonic : Un Modèle De Synthèse Vocale TTS Haute Vitesse Basé Sur ONNX

ROCKET-2 : Transfert Zero-Shot Du Jeu 3D

Ovis-Image : Modèle De Génération d'images De Haute Qualité

JarvisArt - Aperçu Du Proxy De Retouche Photo Intelligent

Associé Notebooks

LongCat-Video : Le Modèle De Génération Vidéo IA Open Source De Meituan

Krea-realtime-video : Modèle De Génération Vidéo En Temps Réel

SAM3 : Modèle De Segmentation Visuelle

F5-E2 TTS Clone n'importe Quel Son En Seulement 3 Secondes

FLUX.2-dev : Modèle De Génération Et D’édition D’images

Supertonic : Un Modèle De Synthèse Vocale TTS Haute Vitesse Basé Sur ONNX

ROCKET-2 : Transfert Zero-Shot Du Jeu 3D

Ovis-Image : Modèle De Génération d'images De Haute Qualité

JarvisArt - Aperçu Du Proxy De Retouche Photo Intelligent