vor 6 Monaten

Zusammenfassung

Der Diffusionsmodell wird weit verbreitet sowohl für die Videogenerierung als auch für die Videobearbeitung eingesetzt. Da jeder dieser Bereiche spezifische Aufgabenstellungen mit sich bringt, ist es schwierig, lediglich ein einziges Diffusionsmodell zu entwickeln, das beide Aufgaben gleichzeitig effizient erfüllt. Während Video-Diffusionsmodelle, die stark auf Text-Prompts angewiesen sind, potenziell zur Vereinheitlichung beider Aufgaben genutzt werden können, weisen sie eine geringe Fähigkeit zur Ausrichtung heterogener Modalitäten zwischen Text und Bild auf, was zu verschiedenen Ausrichtungsproblemen führt. In dieser Arbeit stellen wir erstmals einen einheitlichen Multi-Ausrichtungs-Diffusionsansatz vor, der als MagDiff bezeichnet wird, und der sowohl hochfidelitätsbasierte Videogenerierung als auch Videobearbeitung unterstützt. Der vorgeschlagene MagDiff führt drei Arten der Ausrichtung ein: themengetriebene Ausrichtung, adaptive Prompts-Ausrichtung und hochfidelitätsbasierte Ausrichtung. Insbesondere wird die themengetriebene Ausrichtung eingeführt, um einen Kompromiss zwischen Bild- und Text-Prompts zu ermöglichen und als gemeinsame Grundlage für die generative Modellierung beider Aufgaben zu dienen. Die adaptive Prompts-Ausrichtung ermöglicht es, die jeweiligen Stärken homogener und heterogener Ausrichtungen durch unterschiedliche Gewichtungen für Bild- und Text-Prompts gezielt zu betonen. Die hochfidelitätsbasierte Ausrichtung wird entwickelt, um die Fidelität sowohl bei der Videogenerierung als auch bei der Videobearbeitung weiter zu verbessern, indem das thematische Bild als zusätzliche Eingabe in das Modell integriert wird. Experimentelle Ergebnisse auf vier Benchmarks zeigen, dass unsere Methode gegenüber vorherigen Ansätzen bei jeder einzelnen Aufgabe überlegen ist.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Haoyu Zhao Tianyi Lu Jiaxi Gu Xing Zhang Qingping Zheng Zuxuan Wu Hang Xu Yu-Gang Jiang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Haoyu Zhao Tianyi Lu Jiaxi Gu Xing Zhang Qingping Zheng Zuxuan Wu Hang Xu Yu-Gang Jiang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

MagDiff: Multi-Alignment Diffusion für die hochauflösende Videoerzeugung und -bearbeitung

Haoyu Zhao Tianyi Lu Jiaxi Gu Xing Zhang Qingping Zheng Zuxuan Wu Hang Xu Yu-Gang Jiang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MagDiff: Multi-Alignment Diffusion für die hochauflösende Videoerzeugung und -bearbeitung

Haoyu Zhao Tianyi Lu Jiaxi Gu Xing Zhang Qingping Zheng Zuxuan Wu Hang Xu Yu-Gang Jiang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MagDiff: Multi-Alignment Diffusion für die hochauflösende Videoerzeugung und -bearbeitung

Haoyu Zhao Tianyi Lu Jiaxi Gu Xing Zhang Qingping Zheng Zuxuan Wu Hang Xu Yu-Gang Jiang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters