CLIP-ViP: Anpassung eines vortrainierten Bild-Text-Modells an die Ausrichtung von Video-Sprache-Darstellungen

Vortrainierte Bild-Text-Modelle wie CLIP haben die starke Leistungsfähigkeit der vision-sprachlichen Darstellung demonstriert, die aus einer großen Menge an webbasiert gesammelten Bild-Text-Daten gelernt wurde. Aufgrund der gut erlernten visuellen Merkmale übertragen einige bestehende Arbeiten die Bildrepräsentation in den Video-Bereich und erzielen hierbei gute Ergebnisse. Allerdings bleibt die Nutzung von bild-sprachlich vortrainierten Modellen (z. B. CLIP) für eine nachträgliche Video-Sprache-Vortraining (Post-Pretraining) weiterhin wenig erforscht. In dieser Arbeit untersuchen wir zwei zentrale Fragen: 1) Welche Faktoren behindern das Post-Pretraining von CLIP, die Leistung auf Video-Sprache-Aufgaben weiter zu verbessern? und 2) Wie können diese Faktoren gemildert werden? Durch eine Reihe vergleichender Experimente und Analysen stellen wir fest, dass die Datenmenge und der Domänenunterschied zwischen den Sprachquellen erheblichen Einfluss haben. Darauf aufbauend schlagen wir eine Omnisource Cross-Modal-Lernmethode mit einem Video-Proxy-Mechanismus auf Basis von CLIP vor, die wir CLIP-ViP nennen. Ausführliche Ergebnisse zeigen, dass unsere Methode die Leistung von CLIP bei der Video-Text-Abfrage erheblich verbessert. Zudem erreicht unser Modell state-of-the-art (SOTA)-Ergebnisse auf einer Vielzahl von Datensätzen, darunter MSR-VTT, DiDeMo, LSMDC und ActivityNet. Wir werden unseren Code sowie die vortrainierten CLIP-ViP-Modelle unter https://github.com/microsoft/XPretrain/tree/main/CLIP-ViP veröffentlichen.