LARP: Tokenisierung von Videos mit einem gelernten autoregressiven generativen Prior

Wir präsentieren LARP, einen neuen Video-Tokenisierer, der die Einschränkungen aktueller Tokenisierungsmethoden für autoregressive (AR) Generativmodelle überwinden soll. Im Gegensatz zu traditionellen Patchweise-Tokenisierern, die lokale visuelle Patches direkt in diskrete Tokens kodieren, führt LARP ein ganzheitliches Tokenisierungsschema ein, das Informationen aus dem visuellen Inhalt durch eine Reihe von gelernten ganzheitlichen Abfragen sammelt. Diese Konzeption ermöglicht es LARP, umfassendere und semantischere Repräsentationen zu erfassen, anstatt sich auf lokal patchbasierte Informationen zu beschränken. Darüber hinaus bietet es Flexibilität durch die Unterstützung einer beliebigen Anzahl von diskreten Tokens, was eine anpassungsfähige und effiziente Tokenisierung je nach spezifischen Aufgabenanforderungen erlaubt. Um den diskreten Tokenraum mit nachgelagerten AR-Generierungsaufgaben abzustimmen, integriert LARP einen leichten AR-Transformer als Trainingszeit-Prior-Modell, das den nächsten Token in seinem diskreten latente Raum vorhersagt. Durch die Einbeziehung des Prior-Modells während des Trainings lernt LARP einen latenten Raum, der nicht nur für die Videorekonstruktion optimiert ist, sondern auch so strukturiert ist, dass er besser für autoregressive Generierung geeignet ist. Zudem definiert dieser Prozess eine sequentielle Ordnung für die diskreten Tokens und schiebt sie während des Trainings schrittweise in eine optimale Konfiguration, was eine glattere und genaue AR-Generierung zur Inferenzzeit gewährleistet. Ausführliche Experimente belegen die starke Leistungsfähigkeit von LARP und zeigen einen Stand der Technik im FVD auf dem UCF101 Klassenbedingten Videogenerierungsbenchmark. LARP verbessert die Kompatibilität von AR-Modellen mit Videos und eröffnet das Potenzial zur Entwicklung vereinter hochauflösender multimodaler großer Sprachmodelle (MLLMs).