HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

OmniInsert : Insertion vidéo sans masque de toute référence par le biais de modèles de transformation par diffusion

OmniInsert : Insertion vidéo sans masque de toute référence par le biais de modèles de transformation par diffusion

Résumé

Les avancées récentes dans le domaine de l’insertion vidéo fondée sur les modèles de diffusion sont impressionnantes. Toutefois, les méthodes existantes reposent sur des signaux de contrôle complexes tout en peinant à préserver la cohérence du sujet, ce qui limite leur applicabilité pratique. Dans cet article, nous nous concentrons sur la tâche de l’insertion vidéo sans masque, et visons à résoudre trois défis clés : la rareté des données, l’équilibre sujet-scène, et l’harmonisation de l’insertion. Pour pallier le manque de données, nous proposons une nouvelle chaîne de traitement de données, InsertPipe, permettant de construire automatiquement des paires de données diversifiées. À partir de cette chaîne, nous développons OmniInsert, un cadre unifié novateur pour l’insertion vidéo sans masque à partir de références à un ou plusieurs sujets. Plus précisément, pour préserver l’équilibre sujet-scène, nous introduisons un mécanisme simple mais efficace d’injection de caractéristiques spécifiques aux conditions, permettant d’injecter distinctement des conditions provenant de plusieurs sources, et proposons une stratégie d’entraînement progressive qui permet au modèle d’équilibrer l’injection de caractéristiques issues des sujets et de la vidéo source. Par ailleurs, nous concevons une fonction de perte axée sur le sujet afin d’améliorer le détail de l’apparence des sujets. Pour renforcer davantage l’harmonisation de l’insertion, nous proposons une méthode d’optimisation par préférences d’insertion, qui améliore le modèle en simulant les préférences humaines, et intégrons un module de reformulation consciente du contexte lors de la référence, afin d’intégrer le sujet de manière fluide dans les scènes d’origine. Enfin, pour pallier le manque de benchmark dans ce domaine, nous introduisons InsertBench, un benchmark complet comprenant des scènes diversifiées et des sujets soigneusement sélectionnés. Les évaluations sur InsertBench montrent qu’OmniInsert dépasse les solutions commerciales à code fermé de pointe. Le code source sera publié.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
OmniInsert : Insertion vidéo sans masque de toute référence par le biais de modèles de transformation par diffusion | Articles de recherche | HyperAI