HyperAIHyperAI

Command Palette

Search for a command to run...

VideoCoCa: Video-Text-Modellierung mit zero-shot Transfer von kontrastiven Captionern

Shen Yan Tao Zhu Zirui Wang Yuan Cao Mi Zhang Soham Ghosh Yonghui Wu Jiahui Yu

Zusammenfassung

Wir untersuchen einen effizienten Ansatz zur Entwicklung eines grundlegenden Video-Text-Modells. Wir präsentieren VideoCoCa, das ein vortrainiertes Bild-Text-Kontrastmodell (CoCa) maximal wiederverwendet und es mit minimalen zusätzlichen Trainingsaufwand an Video-Text-Aufgaben anpasst. Während frühere Arbeiten Bild-Text-Modelle durch verschiedene Cross-Frame-Fusionsmodule anpassen, stellen wir fest, dass die generativen und kontrastiven Aufmerksamkeits-Pooling-Schichten in CoCa direkt auf flachgelegte Frame-Embeddings übertragbar sind und dabei Zustand-der-Kunst-Ergebnisse bei der Zero-Shot-Video-Klassifikation und der Zero-Shot-Text-zu-Video-Abfrage erzielen. Zudem untersuchen wir eine leichte Feinabstimmung auf Basis von VideoCoCa und erreichen starke Ergebnisse bei der Video-Fragenbeantwortung und Video-Beschreibung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp