vor 7 Tagen

VideoCoCa: Video-Text-Modellierung mit zero-shot Transfer von kontrastiven Captionern

Shen Yan, Tao Zhu, Zirui Wang, Yuan Cao, Mi Zhang, Soham Ghosh, Yonghui Wu, Jiahui Yu

Abstract

Wir untersuchen einen effizienten Ansatz zur Entwicklung eines grundlegenden Video-Text-Modells. Wir präsentieren VideoCoCa, das ein vortrainiertes Bild-Text-Kontrastmodell (CoCa) maximal wiederverwendet und es mit minimalen zusätzlichen Trainingsaufwand an Video-Text-Aufgaben anpasst. Während frühere Arbeiten Bild-Text-Modelle durch verschiedene Cross-Frame-Fusionsmodule anpassen, stellen wir fest, dass die generativen und kontrastiven Aufmerksamkeits-Pooling-Schichten in CoCa direkt auf flachgelegte Frame-Embeddings übertragbar sind und dabei Zustand-der-Kunst-Ergebnisse bei der Zero-Shot-Video-Klassifikation und der Zero-Shot-Text-zu-Video-Abfrage erzielen. Zudem untersuchen wir eine leichte Feinabstimmung auf Basis von VideoCoCa und erreichen starke Ergebnisse bei der Video-Fragenbeantwortung und Video-Beschreibung.