vor 7 Tagen

Generierung langer Videos mit zeitunabhängigen VQGAN und zeitsensitivem Transformer

Songwei Ge, Thomas Hayes, Harry Yang, Xi Yin, Guan Pang, David Jacobs, Jia-Bin Huang, Devi Parikh

Abstract

Videos werden erstellt, um Emotionen auszudrücken, Informationen auszutauschen und Erfahrungen zu teilen. Die Synthese von Videos hat Forscher seit langem fasziniert. Trotz der rasanten Fortschritte durch Fortschritte in der visuellen Synthese konzentrieren sich die meisten bestehenden Studien darauf, die Qualität der Einzelbilder sowie die Übergänge zwischen ihnen zu verbessern, während bei der Erzeugung längerer Videos nur geringe Fortschritte erzielt wurden. In diesem Paper präsentieren wir eine Methode, die auf 3D-VQGAN und Transformers basiert, um Videos mit Tausenden von Bildern zu generieren. Unsere Evaluation zeigt, dass unser Modell, das auf 16-Bild-Video-Ausschnitten aus etablierten Benchmarks wie UCF-101, Sky Time-lapse und Taichi-HD trainiert wurde, vielfältige, kohärente und hochwertige lange Videos erzeugen kann. Zudem demonstrieren wir bedingte Erweiterungen unseres Ansatzes zur Generierung sinnvoller langer Videos durch die Integration zeitlicher Informationen mittels Text und Audio. Videos und Code sind unter https://songweige.github.io/projects/tats/index.html verfügbar.