Video-LaVIT: Einheitliche Video-Sprach-Vorabausbildung mit getrennter visueller und sprachlicher Tokenisierung

Im Licht der jüngsten Fortschritte bei multimodalen großen Sprachmodellen (LLMs) gibt es eine wachsende Aufmerksamkeit für die Skalierung dieser Modelle von Bild-Text-Daten zu informativeren realweltlichen Videos. Im Vergleich zu statischen Bildern stellen Videos aufgrund der Modellierung ihrer räumlich-zeitlichen Dynamik besondere Herausforderungen für eine effektive Vorkonditionierung in großem Maßstab dar. In dieser Arbeit adressieren wir solche Einschränkungen in der Vorkonditionierung von Video-Sprachmodellen durch eine effiziente Videozerlegung, die jedes Video als Schlüsselbilder und zeitliche Bewegungen darstellt. Diese werden dann mit gut konzipierten Tokenisierern an ein LLM angepasst, die visuelle und zeitliche Informationen in wenige Token diskretisieren, was eine vereinte generative Vorkonditionierung von Videos, Bildern und Text ermöglicht. Bei der Inferenz werden die von dem LLM generierten Token sorgfältig in den ursprünglichen kontinuierlichen Pixelraum zurückgewandelt, um verschiedene Videoinhalte zu erstellen. Unser vorgeschlagenes Framework ist sowohl in der Lage, Bild- und Videoinhalte zu verstehen als auch zu generieren, wie dies durch seine wettbewerbsfähige Leistung bei 13 multimodalen Benchmarks im Bereich Bild- und Videoverstehen sowie -generierung demonstriert wird. Unser Code und unsere Modelle sind unter https://video-lavit.github.io verfügbar.