HyperAIHyperAI

Command Palette

Search for a command to run...

Generierung langer Videos mit zeitunabhängigen VQGAN und zeitsensitivem Transformer

Songwei Ge Thomas Hayes Harry Yang Xi Yin Guan Pang David Jacobs Jia-Bin Huang Devi Parikh

Zusammenfassung

Videos werden erstellt, um Emotionen auszudrücken, Informationen auszutauschen und Erfahrungen zu teilen. Die Synthese von Videos hat Forscher seit langem fasziniert. Trotz der rasanten Fortschritte durch Fortschritte in der visuellen Synthese konzentrieren sich die meisten bestehenden Studien darauf, die Qualität der Einzelbilder sowie die Übergänge zwischen ihnen zu verbessern, während bei der Erzeugung längerer Videos nur geringe Fortschritte erzielt wurden. In diesem Paper präsentieren wir eine Methode, die auf 3D-VQGAN und Transformers basiert, um Videos mit Tausenden von Bildern zu generieren. Unsere Evaluation zeigt, dass unser Modell, das auf 16-Bild-Video-Ausschnitten aus etablierten Benchmarks wie UCF-101, Sky Time-lapse und Taichi-HD trainiert wurde, vielfältige, kohärente und hochwertige lange Videos erzeugen kann. Zudem demonstrieren wir bedingte Erweiterungen unseres Ansatzes zur Generierung sinnvoller langer Videos durch die Integration zeitlicher Informationen mittels Text und Audio. Videos und Code sind unter https://songweige.github.io/projects/tats/index.html verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp