Skalierung von autoregressiven Video-Modellen

Aufgrund der statistischen Komplexität von Videos, des hohen Grades an inhärenter Stochastizität und der enormen Datenmenge bleibt die Erzeugung natürlicher Videos eine herausfordernde Aufgabe. Die neuesten Videoerzeugungsmodelle versuchen oft, diese Probleme durch Kombinationen komplexer, in der Regel videospezifischer Neuronalnetz-Architekturen, latenter Variablenmodelle, adversarischer Trainingsmethoden und einer Reihe anderer Ansätze zu lösen. Trotz ihrer häufig hohen Komplexität fallen diese Methoden noch immer hinter den Anforderungen zur Erzeugung hochwertiger Videofortsetzungen außerhalb enger Domains zurück und haben oft Schwierigkeiten mit der Genauigkeit. Im Gegensatz dazu zeigen wir, dass konzeptionell einfache autoregressive Videoerzeugungsmodelle, die auf einem dreidimensionalen Selbst-Attention-Mechanismus basieren, wettbewerbsfähige Ergebnisse in mehreren Metriken auf beliebten Benchmark-Datensätzen erzielen, bei denen sie Fortsetzungen hoher Genauigkeit und Realismus produzieren. Wir präsentieren auch Ergebnisse aus dem Training unserer Modelle auf Kinetics, einem umfangreichen Datensatz für Aktionserkennung, der aus YouTube-Videos besteht und Phänomene wie Kamerabewegung, komplexe Objektinteraktionen und vielfältige menschliche Bewegungen zeigt. Obwohl die konsistente Modellierung dieser Phänomene weiterhin schwierig ist, hoffen wir, dass unsere Ergebnisse – einschließlich gelegentlich realistischer Fortsetzungen – weitere Forschung auf vergleichsweise komplexen und umfangreichen Datensätzen wie Kinetics anregen.