HyperAIHyperAI
vor 11 Tagen

Show-1: Die Verbindung von Pixel- und Latent-Diffusionsmodellen für die Text-zu-Video-Generierung

Zhang, David Junhao, Wu, Jay Zhangjie, Liu, Jia-Wei, Zhao, Rui, Ran, Lingmin, Gu, Yuchao, Gao, Difei, Shou, Mike Zheng
Show-1: Die Verbindung von Pixel- und Latent-Diffusionsmodellen für die Text-zu-Video-Generierung
Abstract

In der Domäne der großen vortrainierten text-zu-Video-Diffusionsmodelle (VDMs) wurden erhebliche Fortschritte erzielt. Bisherige Ansätze stützen sich entweder ausschließlich auf pixelbasierte VDMs, die mit hohen Rechenkosten einhergehen, oder auf latentbasierte VDMs, die häufig Schwierigkeiten bei der präzisen Text-Video-Alignment aufweisen. In dieser Arbeit präsentieren wir erstmals ein hybrides Modell, das als Show-1 bezeichnet wird und pixelbasierte und latentbasierte VDMs vereint, um Text-zu-Video-Generierung zu ermöglichen. Unser Modell nutzt zunächst pixelbasierte VDMs, um einen Video-Output mit niedriger Auflösung und starker Text-Video-Korrelation zu erzeugen. Anschließend stellen wir eine neuartige Experten-Übersetzungsmethode vor, die latentbasierte VDMs nutzt, um den niedrigauflösenden Video-Output auf hohe Auflösung hochzuskalieren. Diese Methode kann zudem potenzielle Artefakte und Beschädigungen aus den niedrigauflösenden Videos entfernen. Im Vergleich zu latenten VDMs kann Show-1 hochwertige Videos mit präziser Text-Video-Alignment erzeugen; im Vergleich zu pixelbasierten VDMs ist Show-1 deutlich effizienter (GPU-Speicherbedarf während der Inferenz beträgt 15G gegenüber 72G). Darüber hinaus lässt sich unser Show-1-Modell durch einfaches Fine-Tuning einer zeitlichen Aufmerksamkeits-Schicht problemlos für Anwendungen im Bereich Bewegungskonfiguration und Video-Stilisierung anpassen. Unser Modell erreicht state-of-the-art-Ergebnisse auf Standard-Benchmarks für Video-Generierung. Der Quellcode und die Modellgewichte sind öffentlich unter https://github.com/showlab/Show-1 verfügbar.

Show-1: Die Verbindung von Pixel- und Latent-Diffusionsmodellen für die Text-zu-Video-Generierung | Neueste Forschungsarbeiten | HyperAI