HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen von Video-Darstellungen aus großen Sprachmodellen

Yue Zhao extsuperscript1,2*, Ishan Misra extsuperscript1 Philipp Krähenbühl extsuperscript2 Rohit Girdhar extsuperscript1

Zusammenfassung

Wir stellen LaViLa vor, einen neuen Ansatz zur Lernung von Video-Sprachrepräsentationen durch die Nutzung großer Sprachmodelle (LLMs). Wir modifizieren vortrainierte LLMs so, dass sie auf visuelle Eingaben konditioniert werden, und feinjustieren sie, um automatische Videobeschreiber zu erstellen. Unsere automatisch generierten Sprechtexte bieten mehrere Vorteile, darunter eine dichte Abdeckung langer Videos, eine bessere zeitliche Synchronisation der visuellen Informationen und des Textes sowie eine viel höhere Textvielfalt. Die video-sprachliche Einbettung, die kontrastiv mit diesen zusätzlichen automatisch generierten Sprechtexten gelernt wird, übertrifft den bisherigen Stand der Technik bei mehreren Aufgaben mit ersten- und dritten-Personen-Videos, sowohl in Null-Shot- als auch in Feinjustierungsszenarien. Besonders auffällig ist das absolute Gewinn von 10,1 % bei der Klassifikation von EGTEA und 5,9 % bei den Epic-Kitchens-100 Multi-Instanz-Retrieval-Benchmarks. Darüber hinaus übertrifft LaViLa, das nur mit der Hälfte der Sprechtexte aus dem Ego4D-Datensatz trainiert wurde, Basismodelle, die auf dem vollständigen Datensatz trainiert wurden, und zeigt positives Skalierungsverhalten bei steigendem Vortrainingsdatenvolumen und Modellgröße.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lernen von Video-Darstellungen aus großen Sprachmodellen | Paper | HyperAI