HyperAIHyperAI
vor 7 Tagen

MagDiff: Multi-Alignment Diffusion für die hochauflösende Videoerzeugung und -bearbeitung

Haoyu Zhao, Tianyi Lu, Jiaxi Gu, Xing Zhang, Qingping Zheng, Zuxuan Wu, Hang Xu, Yu-Gang Jiang
MagDiff: Multi-Alignment Diffusion für die hochauflösende Videoerzeugung und -bearbeitung
Abstract

Der Diffusionsmodell wird weit verbreitet sowohl für die Videogenerierung als auch für die Videobearbeitung eingesetzt. Da jeder dieser Bereiche spezifische Aufgabenstellungen mit sich bringt, ist es schwierig, lediglich ein einziges Diffusionsmodell zu entwickeln, das beide Aufgaben gleichzeitig effizient erfüllt. Während Video-Diffusionsmodelle, die stark auf Text-Prompts angewiesen sind, potenziell zur Vereinheitlichung beider Aufgaben genutzt werden können, weisen sie eine geringe Fähigkeit zur Ausrichtung heterogener Modalitäten zwischen Text und Bild auf, was zu verschiedenen Ausrichtungsproblemen führt. In dieser Arbeit stellen wir erstmals einen einheitlichen Multi-Ausrichtungs-Diffusionsansatz vor, der als MagDiff bezeichnet wird, und der sowohl hochfidelitätsbasierte Videogenerierung als auch Videobearbeitung unterstützt. Der vorgeschlagene MagDiff führt drei Arten der Ausrichtung ein: themengetriebene Ausrichtung, adaptive Prompts-Ausrichtung und hochfidelitätsbasierte Ausrichtung. Insbesondere wird die themengetriebene Ausrichtung eingeführt, um einen Kompromiss zwischen Bild- und Text-Prompts zu ermöglichen und als gemeinsame Grundlage für die generative Modellierung beider Aufgaben zu dienen. Die adaptive Prompts-Ausrichtung ermöglicht es, die jeweiligen Stärken homogener und heterogener Ausrichtungen durch unterschiedliche Gewichtungen für Bild- und Text-Prompts gezielt zu betonen. Die hochfidelitätsbasierte Ausrichtung wird entwickelt, um die Fidelität sowohl bei der Videogenerierung als auch bei der Videobearbeitung weiter zu verbessern, indem das thematische Bild als zusätzliche Eingabe in das Modell integriert wird. Experimentelle Ergebnisse auf vier Benchmarks zeigen, dass unsere Methode gegenüber vorherigen Ansätzen bei jeder einzelnen Aufgabe überlegen ist.

MagDiff: Multi-Alignment Diffusion für die hochauflösende Videoerzeugung und -bearbeitung | Neueste Forschungsarbeiten | HyperAI