Lernen von Video-Darstellungen aus großen Sprachmodellen

Wir stellen LaViLa vor, einen neuen Ansatz zur Lernung von Video-Sprachrepräsentationen durch die Nutzung großer Sprachmodelle (LLMs). Wir modifizieren vortrainierte LLMs so, dass sie auf visuelle Eingaben konditioniert werden, und feinjustieren sie, um automatische Videobeschreiber zu erstellen. Unsere automatisch generierten Sprechtexte bieten mehrere Vorteile, darunter eine dichte Abdeckung langer Videos, eine bessere zeitliche Synchronisation der visuellen Informationen und des Textes sowie eine viel höhere Textvielfalt. Die video-sprachliche Einbettung, die kontrastiv mit diesen zusätzlichen automatisch generierten Sprechtexten gelernt wird, übertrifft den bisherigen Stand der Technik bei mehreren Aufgaben mit ersten- und dritten-Personen-Videos, sowohl in Null-Shot- als auch in Feinjustierungsszenarien. Besonders auffällig ist das absolute Gewinn von 10,1 % bei der Klassifikation von EGTEA und 5,9 % bei den Epic-Kitchens-100 Multi-Instanz-Retrieval-Benchmarks. Darüber hinaus übertrifft LaViLa, das nur mit der Hälfte der Sprechtexte aus dem Ego4D-Datensatz trainiert wurde, Basismodelle, die auf dem vollständigen Datensatz trainiert wurden, und zeigt positives Skalierungsverhalten bei steigendem Vortrainingsdatenvolumen und Modellgröße.