CLIP2Video: Video-Text-Retrieval mittels Bild-CLIP meistern

Wir stellen das CLIP2Video-Netzwerk vor, um das Bild-Sprache-Vortrainingsmodell auf die Video-Text-Recherche auf eine end-to-end-Weise zu übertragen. Führende Ansätze im Bereich der Video- und Sprachlernung versuchen, räumlich-zeitliche Video-Features sowie multimodale Interaktionen zwischen Videos und Sprache aus einem großskaligen Video-Text-Datensatz zu extrahieren. Im Gegensatz dazu nutzen wir ein vortrainiertes Bild-Sprache-Modell, vereinfachen es zu einem zweistufigen Framework mit koordiniertem Lernen von Bild-Text-Beziehungen und der Verbesserung der zeitlichen Beziehungen zwischen Videoframes und Video-Text, wodurch es auf vergleichsweise kleineren Datensätzen trainiert werden kann. Konkret basiert unser Modell auf den räumlichen Semantiken, die vom Contrastive Language-Image Pretraining (CLIP)-Modell erfasst werden, und integriert einen Temporal Difference Block zur Erfassung von Bewegungen auf fein zeitlichen Video-Frame-Ebenen sowie einen Temporal Alignment Block zur erneuten Ausrichtung der Tokens von Videoclips und Phrasen, um die multimodale Korrelation zu stärken. Wir führen umfassende Ablationsstudien durch und erreichen state-of-the-art-Leistungen auf zentralen Benchmarks für Text-zu-Video- und Video-zu-Text-Recherche, einschließlich neuer Rekordwerte für die Recherche-Genauigkeit auf MSR-VTT, MSVD und VATEX.