vor 6 Monaten

Zusammenfassung

In der Domäne der großen vortrainierten text-zu-Video-Diffusionsmodelle (VDMs) wurden erhebliche Fortschritte erzielt. Bisherige Ansätze stützen sich entweder ausschließlich auf pixelbasierte VDMs, die mit hohen Rechenkosten einhergehen, oder auf latentbasierte VDMs, die häufig Schwierigkeiten bei der präzisen Text-Video-Alignment aufweisen. In dieser Arbeit präsentieren wir erstmals ein hybrides Modell, das als Show-1 bezeichnet wird und pixelbasierte und latentbasierte VDMs vereint, um Text-zu-Video-Generierung zu ermöglichen. Unser Modell nutzt zunächst pixelbasierte VDMs, um einen Video-Output mit niedriger Auflösung und starker Text-Video-Korrelation zu erzeugen. Anschließend stellen wir eine neuartige Experten-Übersetzungsmethode vor, die latentbasierte VDMs nutzt, um den niedrigauflösenden Video-Output auf hohe Auflösung hochzuskalieren. Diese Methode kann zudem potenzielle Artefakte und Beschädigungen aus den niedrigauflösenden Videos entfernen. Im Vergleich zu latenten VDMs kann Show-1 hochwertige Videos mit präziser Text-Video-Alignment erzeugen; im Vergleich zu pixelbasierten VDMs ist Show-1 deutlich effizienter (GPU-Speicherbedarf während der Inferenz beträgt 15G gegenüber 72G). Darüber hinaus lässt sich unser Show-1-Modell durch einfaches Fine-Tuning einer zeitlichen Aufmerksamkeits-Schicht problemlos für Anwendungen im Bereich Bewegungskonfiguration und Video-Stilisierung anpassen. Unser Modell erreicht state-of-the-art-Ergebnisse auf Standard-Benchmarks für Video-Generierung. Der Quellcode und die Modellgewichte sind öffentlich unter https://github.com/showlab/Show-1 verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Zhang David Junhao Wu Jay Zhangjie Liu Jia-Wei Zhao Rui Ran Lingmin

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Zhang David Junhao Wu Jay Zhangjie Liu Jia-Wei Zhao Rui Ran Lingmin

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Show-1: Die Verbindung von Pixel- und Latent-Diffusionsmodellen für die Text-zu-Video-Generierung

Zhang David Junhao Wu Jay Zhangjie Liu Jia-Wei Zhao Rui Ran Lingmin6 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Show-1: Die Verbindung von Pixel- und Latent-Diffusionsmodellen für die Text-zu-Video-Generierung

Zhang David Junhao Wu Jay Zhangjie Liu Jia-Wei Zhao Rui Ran Lingmin6 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Show-1: Die Verbindung von Pixel- und Latent-Diffusionsmodellen für die Text-zu-Video-Generierung

Zhang David Junhao Wu Jay Zhangjie Liu Jia-Wei Zhao Rui Ran Lingmin6 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Zhang David Junhao Wu Jay Zhangjie Liu Jia-Wei Zhao Rui Ran Lingmin

Zhang David Junhao Wu Jay Zhangjie Liu Jia-Wei Zhao Rui Ran Lingmin

Zhang David Junhao Wu Jay Zhangjie Liu Jia-Wei Zhao Rui Ran Lingmin