Command Palette
Search for a command to run...
VideoCoCa: Video-Text-Modellierung mit zero-shot Transfer von kontrastiven Captionern
VideoCoCa: Video-Text-Modellierung mit zero-shot Transfer von kontrastiven Captionern
Shen Yan Tao Zhu Zirui Wang Yuan Cao Mi Zhang Soham Ghosh Yonghui Wu Jiahui Yu
Zusammenfassung
Wir untersuchen einen effizienten Ansatz zur Entwicklung eines grundlegenden Video-Text-Modells. Wir präsentieren VideoCoCa, das ein vortrainiertes Bild-Text-Kontrastmodell (CoCa) maximal wiederverwendet und es mit minimalen zusätzlichen Trainingsaufwand an Video-Text-Aufgaben anpasst. Während frühere Arbeiten Bild-Text-Modelle durch verschiedene Cross-Frame-Fusionsmodule anpassen, stellen wir fest, dass die generativen und kontrastiven Aufmerksamkeits-Pooling-Schichten in CoCa direkt auf flachgelegte Frame-Embeddings übertragbar sind und dabei Zustand-der-Kunst-Ergebnisse bei der Zero-Shot-Video-Klassifikation und der Zero-Shot-Text-zu-Video-Abfrage erzielen. Zudem untersuchen wir eine leichte Feinabstimmung auf Basis von VideoCoCa und erreichen starke Ergebnisse bei der Video-Fragenbeantwortung und Video-Beschreibung.