HyperAIHyperAI

Command Palette

Search for a command to run...

Vid2Seq: Großskaliges Vortraining eines visuellen Sprachmodells für dichte Videozusammenfassung

Antoine Yang Arsha Nagrani Paul Hongsuck Seo Antoine Miech Jordi Pont-Tuset Ivan Laptev Josef Sivic Cordelia Schmid

Zusammenfassung

In dieser Arbeit stellen wir Vid2Seq vor, ein multimodales Ein-Stufen-Modell für dichte Ereignis-Kommentierung, das auf erzählten Videos vortrainiert wurde, die in großem Umfang und leicht verfügbar sind. Die Architektur von Vid2Seq erweitert ein Sprachmodell um spezielle Zeit-Token, wodurch es in der Lage ist, Ereignisgrenzen und textuelle Beschreibungen nahtlos in derselben Ausgabefolge vorherzusagen. Ein solches integriertes Modell erfordert große Mengen an Trainingsdaten, die in derzeit verfügbaren annotierten Datensätzen nicht vorhanden sind. Wir zeigen, dass es möglich ist, nicht annotierte erzählte Videos für die dichte Video-Kommentierung zu nutzen, indem wir die Satzgrenzen der transkribierten Sprache als Pseudoereignisgrenzen umdeuten und die transkribierten Sprachsätze als Pseudoereignisbeschreibungen verwenden. Das dadurch entstandene Vid2Seq-Modell, das auf dem YT-Temporal-1B-Datensatz vortrainiert wurde, übertrifft die bisherigen Zustände der Kunst auf einer Vielzahl von Benchmarks für dichte Video-Kommentierung, darunter YouCook2, ViTT und ActivityNet Captions. Vid2Seq zeigt zudem eine gute Generalisierungsfähigkeit auf die Aufgaben der Video-Paragraph-Kommentierung und Video-Ausschnitt-Kommentierung sowie auf Few-Shot-Szenarien. Unser Quellcode ist öffentlich unter https://antoyang.github.io/vid2seq.html verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp