HyperAI

Tutoriel En Ligne : L'équipe Shi Boxin De L'université De Pékin Et L'informatique Bayésienne Ont Proposé La Méthode De Redessin D'instance Vidéo VIRES, Avec Plusieurs Indicateurs De Performance Atteignant SOTA.

特色图像

Les vidéos peuvent-elles également être retouchées avec Photoshop ?

Comme nous le savons tous, le montage vidéo est extrêmement complexe. Si vous souhaitez ajuster ou remplacer le sujet, changer la scène, la couleur ou supprimer un objet,Cela implique souvent une annotation manuelle, une peinture de masque et un étalonnage minutieux des couleurs d'innombrables images.Même les équipes de postproduction expérimentées peinent à maintenir la cohérence temporelle lors du montage de scènes complexes. Ces dernières années, avec le développement rapide de l'IA générative, des fonctions telles que l'« élimination en un clic » ont progressivement fait leur apparition dans divers logiciels de montage, révélant ainsi l'immense potentiel de l'IA en montage vidéo.

En effet, dans les applications pratiques, outre la fonction d'élimination universelle, les fonctions les plus fréquemment utilisées et les plus complexes consistent souvent à remplacer et à ajouter des sujets, ce qui implique une reconnaissance de cible, une segmentation et une génération vidéo plus précises. Cependant, les méthodes d'IA actuelles rencontrent encore des difficultés pour gérer ces tâches de redessin vidéo dans des scènes complexes. Par exemple,De nombreuses méthodes actuelles de prise de vue zéro sont susceptibles de provoquer un scintillement de l'écran lors du traitement d'images vidéo continues ; pour les scènes avec des arrière-plans complexes ou des cibles multiples, un désalignement, un flou ou une déviation sémantique peuvent se produire.

En réponse à cela, le laboratoire d'intelligence des caméras de l'université de Pékin (l'équipe de Shi Boxin) s'est associé à OpenBayes Bayesian Computing et à l'équipe du professeur associé Li Si du laboratoire de reconnaissance de formes de l'école d'intelligence artificielle de l'université des postes et télécommunications de Pékin.Ils ont proposé conjointement un exemple vidéo de méthode de redessin VIRES qui combine des conseils sous forme de croquis et de texte.Prend en charge plusieurs opérations d'édition telles que le redessin, le remplacement, la génération et la suppression du corps de la vidéo.

Cette méthode utilise les connaissances préalables du modèle texte-vidéo pour garantir la cohérence temporelle. Elle propose également un réseau de contrôle séquentiel doté d'un mécanisme de mise à l'échelle adaptative standardisé, capable d'extraire efficacement la structure et de capturer de manière adaptative les détails des croquis à fort contraste. De plus, l'équipe de recherche a introduit un mécanisme d'attention aux croquis dans le réseau principal DiT (transformateur de diffusion) pour interpréter et injecter une sémantique fine des croquis. Les résultats expérimentaux montrent queVIRES surpasse les modèles SOTA existants dans de nombreux aspects, notamment la qualité vidéo, la cohérence temporelle, l'alignement conditionnel et les évaluations des utilisateurs.

Scores d'index multi-classes de VIRES et de 5 méthodes existantes sur différents ensembles de données

La recherche connexe, intitulée « VIRES : Repainting d'instances vidéo via la génération guidée par croquis et texte », a été sélectionnée pour CVPR 2025.

L'application « VIRES : Redessin vidéo guidé par double esquisse et texte » est désormais disponible dans la section tutoriels du site officiel d'HyperAI (hyper.ai). Grâce à un déploiement en un clic, vous pouvez profiter de fonctions de montage vidéo de haute qualité en ligne. Prenant l'exemple de la génération d'instances personnalisées, l'auteur a ajouté un corgi courant dans la neige, un outil réaliste et sans aucune désobéissance ⬇️

Lien du tutoriel :https://go.hyper.ai/49koQ

  Nous avons également préparé des avantages surprises pour les nouveaux utilisateurs inscrits. Utilisez le code d'invitation « VIRES » pour vous inscrire sur la plateforme OpenBayes.Vous pouvez obtenir 4 heures d'utilisation gratuite du RTX A6000 (la ressource est valable 1 mois).Quantité limitée, premier arrivé, premier servi !

Essai de démonstration

1. Après avoir accédé à la page d'accueil de hyper.ai, sélectionnez la page « Tutoriels », sélectionnez « VIRES : Redessin vidéo avec croquis et guide double texte » et cliquez sur « Exécuter ce tutoriel en ligne ».

2. Une fois la page affichée, cliquez sur « Cloner » dans le coin supérieur droit pour cloner le didacticiel dans votre propre conteneur.

3. Sélectionnez les images « NVIDIA RTX A6000 » et « PyTorch ». La plateforme OpenBayes propose quatre modes de facturation : « à l'utilisation » ou « quotidien/hebdomadaire/mensuel » selon vos besoins. Cliquez sur « Continuer ». Les nouveaux utilisateurs peuvent s'inscrire via le lien d'invitation ci-dessous pour obtenir 4 heures de RTX 4090 et 5 heures de temps processeur gratuit !

Lien d'invitation exclusif HyperAI (copier et ouvrir dans le navigateur) :

https://openbayes.com/console/signup?r=Ada0322_NR0n

4. Attendez que les ressources soient allouées. Le premier processus de clonage prend environ 2 minutes. Lorsque le statut passe à « En cours d'exécution », cliquez sur la flèche de saut à côté de « Adresse API » pour accéder à la page de démonstration. Étant donné que le modèle est volumineux, il faut environ 3 minutes pour afficher l'interface WebUI, sinon « Bad Gateway » s'affichera. Veuillez noter que les utilisateurs doivent effectuer l'authentification par nom réel avant d'utiliser la fonction d'accès à l'adresse API.

Démonstration d'effet

Cliquez sur l'adresse de l'API pour découvrir directement le modèle, comme illustré ci-dessous. Nous avons préparé plusieurs exemples pour vous dans ce tutoriel ; n'hésitez pas à les découvrir !

Prenant comme exemple la « génération d'instances personnalisées », l'auteur a ajouté un corgi courant dans la neige extérieure, ce qui est réaliste et n'a aucun sens de la désobéissance !

* Vidéo originale :

* Générer un effet :

* rapide:

La vidéo présente une scène charmante d'un corgi courant joyeusement dans un parc enneigé. Le parc est agrémenté d'arbres et d'une aire de jeux en arrière-plan, créant une atmosphère hivernale pittoresque. Le corgi, avec sa fourrure orange et blanche et ses yeux expressifs, court sans cesse vers et depuis la caméra, soulevant la neige avec ses pattes et affichant une attitude joueuse et pleine d'énergie. La vidéo capture les mouvements du corgi en détail, mettant l'accent sur ses yeux brillants, ses pattes musclées et son agilité tandis qu'il gambade dans la neige. Le créateur souhaitait probablement partager un moment touchant et visuellement attrayant, mettant en valeur la joie et la vivacité d'un animal adoré dans un magnifique décor enneigé.

Le tutoriel ci-dessus est celui recommandé par HyperAI cette fois-ci. Bienvenue à tous pour le découvrir !

Lien du tutoriel :https://go.hyper.ai/49koQ