HyperAIHyperAI
vor 7 Tagen

VideoCoCa: Video-Text-Modellierung mit zero-shot Transfer von kontrastiven Captionern

Shen Yan, Tao Zhu, Zirui Wang, Yuan Cao, Mi Zhang, Soham Ghosh, Yonghui Wu, Jiahui Yu
VideoCoCa: Video-Text-Modellierung mit zero-shot Transfer von kontrastiven Captionern
Abstract

Wir untersuchen einen effizienten Ansatz zur Entwicklung eines grundlegenden Video-Text-Modells. Wir präsentieren VideoCoCa, das ein vortrainiertes Bild-Text-Kontrastmodell (CoCa) maximal wiederverwendet und es mit minimalen zusätzlichen Trainingsaufwand an Video-Text-Aufgaben anpasst. Während frühere Arbeiten Bild-Text-Modelle durch verschiedene Cross-Frame-Fusionsmodule anpassen, stellen wir fest, dass die generativen und kontrastiven Aufmerksamkeits-Pooling-Schichten in CoCa direkt auf flachgelegte Frame-Embeddings übertragbar sind und dabei Zustand-der-Kunst-Ergebnisse bei der Zero-Shot-Video-Klassifikation und der Zero-Shot-Text-zu-Video-Abfrage erzielen. Zudem untersuchen wir eine leichte Feinabstimmung auf Basis von VideoCoCa und erreichen starke Ergebnisse bei der Video-Fragenbeantwortung und Video-Beschreibung.