Vid2Seq: Großskaliges Vortraining eines visuellen Sprachmodells für dichte Videozusammenfassung

In dieser Arbeit stellen wir Vid2Seq vor, ein multimodales Ein-Stufen-Modell für dichte Ereignis-Kommentierung, das auf erzählten Videos vortrainiert wurde, die in großem Umfang und leicht verfügbar sind. Die Architektur von Vid2Seq erweitert ein Sprachmodell um spezielle Zeit-Token, wodurch es in der Lage ist, Ereignisgrenzen und textuelle Beschreibungen nahtlos in derselben Ausgabefolge vorherzusagen. Ein solches integriertes Modell erfordert große Mengen an Trainingsdaten, die in derzeit verfügbaren annotierten Datensätzen nicht vorhanden sind. Wir zeigen, dass es möglich ist, nicht annotierte erzählte Videos für die dichte Video-Kommentierung zu nutzen, indem wir die Satzgrenzen der transkribierten Sprache als Pseudoereignisgrenzen umdeuten und die transkribierten Sprachsätze als Pseudoereignisbeschreibungen verwenden. Das dadurch entstandene Vid2Seq-Modell, das auf dem YT-Temporal-1B-Datensatz vortrainiert wurde, übertrifft die bisherigen Zustände der Kunst auf einer Vielzahl von Benchmarks für dichte Video-Kommentierung, darunter YouCook2, ViTT und ActivityNet Captions. Vid2Seq zeigt zudem eine gute Generalisierungsfähigkeit auf die Aufgaben der Video-Paragraph-Kommentierung und Video-Ausschnitt-Kommentierung sowie auf Few-Shot-Szenarien. Unser Quellcode ist öffentlich unter https://antoyang.github.io/vid2seq.html verfügbar.