HyperAIHyperAI

Command Palette

Search for a command to run...

Snap Video: Skalierte räumlich-zeitliche Transformer für die Text-zu-Video-Synthese

Zusammenfassung

Moderne Modelle zur Bildgenerierung zeigen bemerkenswerte Qualität und Vielseitigkeit. Angesichts dieser Vorteile adaptiert die Forschungsgemeinschaft diese Modelle zunehmend für die Videoerzeugung. Da Videoinhalte hochgradig redundant sind, argumentieren wir, dass eine naiv übertragene Nutzung der Fortschritte in der Bildgenerierung die Bewegungsfidelität, die visuelle Qualität und die Skalierbarkeit beeinträchtigt. In dieser Arbeit stellen wir Snap Video vor – ein video-erstes Modell, das diese Herausforderungen systematisch angeht. Dazu erweitern wir zunächst den EDM-Framework, um räumlich-zeitlich redundante Pixel zu berücksichtigen und die Videoerzeugung natürlicher zu unterstützen. Zweitens zeigen wir, dass eine U-Net-Architektur – das zentrale Bauelement der Bildgenerierung – bei der Videoerzeugung schlecht skaliert und erhebliche rechnerische Aufwände verursacht. Daher schlagen wir eine neue, auf Transformers basierende Architektur vor, die 3,31-mal schneller trainiert als U-Netzwerke (und bei der Inferenz etwa 4,5-mal schneller ist). Dies ermöglicht erstmals die effiziente Trainierung eines Text-zu-Video-Modells mit mehreren Milliarden Parametern, führt zu state-of-the-art-Ergebnissen auf mehreren Benchmarks und erzeugt Videos mit erheblich höherer Qualität, zeitlicher Konsistenz und Bewegungskomplexität. Nutzerstudien zeigten, dass unser Modell im Vergleich zu den neuesten Ansätzen deutlich bevorzugt wird. Weitere Informationen finden Sie auf unserer Website: https://snap-research.github.io/snapvideo/.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp