HyperAIHyperAI
vor 11 Tagen

Hierarchische räumlich-zeitliche Entkopplung für Text-zu-Video-Generierung

Zhiwu Qing, Shiwei Zhang, Jiayu Wang, Xiang Wang, Yujie Wei, Yingya Zhang, Changxin Gao, Nong Sang
Hierarchische räumlich-zeitliche Entkopplung für Text-zu-Video-Generierung
Abstract

Trotz der bemerkenswerten Fähigkeiten von Diffusionsmodellen zur Generierung photorealistischer Bilder bleibt die Erzeugung realistischer und vielfältiger Videos in ihren Anfängen. Ein zentraler Grund hierfür ist, dass aktuelle Methoden räumlichen Inhalt und zeitliche Dynamik eng verknüpfen, was die Komplexität der Text-zu-Video-Generierung (T2V) erheblich erhöht. In dieser Arbeit stellen wir HiGen vor, eine auf Diffusionsmodellen basierende Methode, die die Leistung durch eine Entkoppelung der räumlichen und zeitlichen Faktoren von Videos aus zwei Perspektiven verbessert: auf Strukturebene und auf InhaltsEbene. Auf der Strukturebene zerlegen wir die T2V-Aufgabe in zwei Schritte – räumliche Schlussfolgerung und zeitliche Schlussfolgerung – unter Verwendung eines einheitlichen Denoisers. Konkret generieren wir während der räumlichen Schlussfolgerung räumlich konsistente Vorwissen aus dem Text und leiten anschließend aus diesen Vorwissen zeitlich konsistente Bewegungen während der zeitlichen Schlussfolgerung ab. Auf der InhaltsEbene extrahieren wir zwei feine Hinweise aus dem Inhalt des Eingabevideos, die jeweils Bewegungs- und Erscheinungsänderungen ausdrücken. Diese beiden Hinweise leiten dann das Training des Modells zur Videoerzeugung an und ermöglichen flexible Inhaltsvariationen sowie eine verbesserte zeitliche Stabilität. Durch das entkoppelte Paradigma kann HiGen die Komplexität der Aufgabe effektiv reduzieren und realistische Videos mit semantischer Genauigkeit und Bewegungsstabilität erzeugen. Umfangreiche Experimente belegen die überlegene Leistung von HiGen gegenüber den aktuellen State-of-the-Art-Methoden für T2V.