vor 8 Tagen

Make Pixels Dance: Hochdynamische Videoerzeugung

Yan Zeng, Guoqiang Wei, Jiani Zheng, Jiaxin Zou, Yang Wei, Yuchen Zhang, Hang Li

Abstract

Die Erstellung von Videos mit hoher Dynamik, wie beispielsweise bewegungsreichen Aktionen und komplexen visuellen Effekten, stellt eine erhebliche Herausforderung im Bereich der künstlichen Intelligenz dar. Derzeitige State-of-the-art-Verfahren zur Videogenerierung, die vor allem auf Text-zu-Video-Generierung fokussiert sind, erzeugen dennoch häufig Videoclips mit nur geringen Bewegungen, obwohl die Bildqualität hoch ist. Wir argumentieren, dass die reine Abhängigkeit von Textanweisungen für die Videogenerierung unzureichend und suboptimal ist. In diesem Paper stellen wir PixelDance vor, einen neuartigen Ansatz basierend auf Diffusionsmodellen, der sowohl Bildanweisungen für den ersten und letzten Frame als auch Textanweisungen zur Videogenerierung integriert. Umfassende experimentelle Ergebnisse zeigen, dass PixelDance, trainiert auf öffentlichen Daten, erheblich bessere Fähigkeiten zur Synthese von Videos mit komplexen Szenen und fein abgestimmten Bewegungen aufweist und damit einen neuen Standard für die Videogenerierung setzt.