HyperAIHyperAI
il y a 12 jours

Omni-Effects : Génération unifiée et contrôlable spatialement d'effets visuels

Fangyuan Mao, Aiming Hao, Jintao Chen, Dongxia Liu, Xiaokun Feng, Jiashu Zhu, Meiqi Wu, Chubin Chen, Jiahong Wu, Xiangxiang Chu
Omni-Effects : Génération unifiée et contrôlable spatialement d'effets visuels
Résumé

Les effets visuels (VFX) constituent des améliorations visuelles essentielles à la production cinématographique moderne. Bien que les modèles de génération vidéo offrent des solutions économiquement viables pour la production de VFX, les méthodes actuelles sont limitées par l'entraînement par LoRA par effet, ce qui restreint la génération à un seul effet à la fois. Cette limitation fondamentale entrave les applications nécessitant des effets composites contrôlables spatialement, c’est-à-dire la génération simultanée de plusieurs effets à des emplacements prédéfinis. Toutefois, intégrer divers effets dans un cadre unifié soulève de graves défis : les interférences dues aux variations entre effets et l’absence de contrôle spatial lors de l’entraînement conjoint des multiples VFX. Pour relever ces défis, nous proposons Omni-Effects, le premier cadre unifié capable de générer des effets guidés par prompt ainsi que des effets composites contrôlables spatialement. Le cœur de notre cadre repose sur deux innovations clés : (1) LoRA-MoE (Mélange d’Experts basé sur LoRA), qui utilise un ensemble d’experts LoRA pour intégrer divers effets dans un modèle unique tout en atténuant efficacement les interférences entre tâches ; (2) SAP (Prompt conscient de l’espace), qui incorpore des informations de masque spatial dans les tokens textuels, permettant un contrôle spatial précis. En outre, nous introduisons un module de flux d’information indépendant (IIF), intégré au sein du SAP, qui isole les signaux de contrôle correspondant à chaque effet individuel afin d’éviter tout mélange indésirable. Pour soutenir cette recherche, nous avons construit un ensemble de données VFX complet, Omni-VFX, via une nouvelle pipeline de collecte de données combinant édition d’images et synthèse vidéo à partir des premiers et derniers cadres (FLF2V), et avons développé un cadre d’évaluation dédié aux VFX pour valider les performances du modèle. Des expériences étendues démontrent que Omni-Effects permet un contrôle spatial précis et une génération diversifiée d’effets, permettant aux utilisateurs de spécifier à la fois la catégorie et l’emplacement des effets souhaités.