HyperAIHyperAI

Command Palette

Search for a command to run...

MagDiff: Multi-Alignment Diffusion für die hochauflösende Videoerzeugung und -bearbeitung

Haoyu Zhao Tianyi Lu Jiaxi Gu Xing Zhang Qingping Zheng Zuxuan Wu Hang Xu Yu-Gang Jiang

Zusammenfassung

Der Diffusionsmodell wird weit verbreitet sowohl für die Videogenerierung als auch für die Videobearbeitung eingesetzt. Da jeder dieser Bereiche spezifische Aufgabenstellungen mit sich bringt, ist es schwierig, lediglich ein einziges Diffusionsmodell zu entwickeln, das beide Aufgaben gleichzeitig effizient erfüllt. Während Video-Diffusionsmodelle, die stark auf Text-Prompts angewiesen sind, potenziell zur Vereinheitlichung beider Aufgaben genutzt werden können, weisen sie eine geringe Fähigkeit zur Ausrichtung heterogener Modalitäten zwischen Text und Bild auf, was zu verschiedenen Ausrichtungsproblemen führt. In dieser Arbeit stellen wir erstmals einen einheitlichen Multi-Ausrichtungs-Diffusionsansatz vor, der als MagDiff bezeichnet wird, und der sowohl hochfidelitätsbasierte Videogenerierung als auch Videobearbeitung unterstützt. Der vorgeschlagene MagDiff führt drei Arten der Ausrichtung ein: themengetriebene Ausrichtung, adaptive Prompts-Ausrichtung und hochfidelitätsbasierte Ausrichtung. Insbesondere wird die themengetriebene Ausrichtung eingeführt, um einen Kompromiss zwischen Bild- und Text-Prompts zu ermöglichen und als gemeinsame Grundlage für die generative Modellierung beider Aufgaben zu dienen. Die adaptive Prompts-Ausrichtung ermöglicht es, die jeweiligen Stärken homogener und heterogener Ausrichtungen durch unterschiedliche Gewichtungen für Bild- und Text-Prompts gezielt zu betonen. Die hochfidelitätsbasierte Ausrichtung wird entwickelt, um die Fidelität sowohl bei der Videogenerierung als auch bei der Videobearbeitung weiter zu verbessern, indem das thematische Bild als zusätzliche Eingabe in das Modell integriert wird. Experimentelle Ergebnisse auf vier Benchmarks zeigen, dass unsere Methode gegenüber vorherigen Ansätzen bei jeder einzelnen Aufgabe überlegen ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MagDiff: Multi-Alignment Diffusion für die hochauflösende Videoerzeugung und -bearbeitung | Paper | HyperAI