Command Palette
Search for a command to run...
OmniShow : Unifier les conditions multimodales pour la génération de vidéos de Human-Object Interaction
OmniShow : Unifier les conditions multimodales pour la génération de vidéos de Human-Object Interaction
Résumé
Dans ce travail, nous étudions la génération de vidéos d'interaction humain-objet (Human-Object Interaction Video Generation, HOIVG), qui vise à synthétiser des vidéos de haute qualité d'interactions entre un humain et un objet, conditionnées par du texte, des images de référence, de l'audio et de la pose. Cette tâche revêt une valeur pratique significative pour l'automatisation de la création de contenu dans des applications du monde réel, telles que les démonstrations d'e-commerce, la production de vidéos courtes et le divertissement interactif. Cependant, les approches existantes ne parviennent pas à intégrer l'ensemble de ces conditions requises.Nous présentons OmniShow, un framework end-to-end conçu spécifiquement pour cette tâche à la fois pratique et complexe, capable d'harmoniser des conditions multimodales et d'offrir des performances de qualité industrielle. Pour surmonter le compromis entre contrôlabilité et qualité, nous introduisons le Unified Channel-wise Conditioning pour une injection efficace de l'image et de la pose, ainsi que le Gated Local-Context Attention pour garantir une synchronisation audio-visuelle précise. Afin de remédier efficacement à la rareté des données, nous développons une stratégie d'entraînement Decoupled-Then-Joint Training qui exploite un processus d'entraînement en plusieurs étapes avec fusion de modèles (model merging) pour tirer parti efficacement de jeux de données de sous-tâches hétérogènes.De plus, pour combler le manque d'évaluation dans ce domaine, nous établissons HOIVG-Bench, un benchmark dédié et complet pour la HOIVG. Des expériences approfondies démontrent qu'OmniShow atteint des performances de pointe (state-of-the-art) globales à travers divers réglages de conditionnement multimodal, établissant ainsi une norme solide pour la tâche émergente de la HOIVG.