HyperAIHyperAI
vor 2 Monaten

Videogenerierung mit Szenendynamik

Carl Vondrick; Hamed Pirsiavash; Antonio Torralba
Videogenerierung mit Szenendynamik
Abstract

Wir nutzen große Mengen an nicht gekennzeichneten Videos, um ein Modell der Szenendynamik für sowohl Videoerkennungsaufgaben (z.B. Aktionserkennung) als auch Videogenerierungsaufgaben (z.B. Zukunftsprognose) zu erlernen. Wir schlagen ein generatives adversariales Netzwerk (GAN) für Videos vor, das eine räumlich-zeitliche Faltungsarchitektur aufweist und den Vordergrund von der Hintergrundszene trennt. Experimente deuten darauf hin, dass dieses Modell kleine Videos mit bis zu einer Sekunde Länge in voller Bildfrequenz besser als einfache Baseline-Modelle generieren kann. Darüber hinaus zeigen wir die Nützlichkeit des Modells bei der Prognose plausibler Zukunftsszenarien statischer Bilder. Zudem legen Experimente und Visualisierungen nahe, dass das Modell intern nützliche Merkmale zur Erkennung von Aktionen mit minimalem Aufwand lernt, was darauf hindeutet, dass Szenendynamiken ein vielversprechendes Signal für die Repräsentationslernung sind. Wir glauben, dass generative Videomodelle viele Anwendungen im Bereich der Videoverstehens- und Simulationsforschung beeinflussen können.