vor 8 Tagen

VideoFusion: Zerlegte Diffusionsmodelle zur Erzeugung hochwertiger Videos

Zhengxiong Luo, Dayou Chen, Yingya Zhang, Yan Huang, Liang Wang, Yujun Shen, Deli Zhao, Jingren Zhou, Tieniu Tan

Abstract

Ein Diffusions-Wahrscheinlichkeitsmodell (DPM), das einen Vorwärts-Diffusionsprozess durch schrittweise Hinzufügen von Rauschen zu Datenelementen aufbaut und den umgekehrten Entrauschungsprozess lernt, um neue Proben zu generieren, hat sich als effektiv bei der Behandlung komplexer Datenverteilungen erwiesen. Trotz seines jüngsten Erfolgs bei der Bildsynthese bleibt die Anwendung von DPMs auf die Videogenerierung herausfordernd, bedingt durch die hochdimensionalen Datensräume. Frühere Ansätze verwenden gewöhnlich einen standardisierten Diffusionsprozess, bei dem die Frames eines Videoausschnitts unabhängig voneinander mit Rauschen versehen werden, wodurch inhaltliche Redundanzen und zeitliche Korrelationen ignoriert werden. In dieser Arbeit wird ein dekomponierter Diffusionsprozess vorgestellt, bei dem das pro-Frames-Rauschen in ein gemeinsam für alle Frames genutztes Basisrauschen und ein zeitlich variierendes Restrauschen zerlegt wird. Die Entrauschungspipeline nutzt zwei gemeinsam gelernte Netzwerke, um die Rauschdekomposition entsprechend zu erfassen. Experimente auf verschiedenen Datensätzen bestätigen, dass unser Ansatz, VideoFusion genannt, sowohl GAN-basierte als auch diffusionbasierte Alternativen bei der Erzeugung hochwertiger Videos übertrifft. Darüber hinaus zeigen wir, dass unsere dekomponierte Formulierung von vortrainierten Bild-Diffusionsmodellen profitieren und die textbedingte Videogenerierung effektiv unterstützen kann.