CLIP4Clip: Eine empirische Studie zu CLIP für die end-to-end Video-Clip-Retrieval

Die Video-Text-Retrieval-Aufgabe spielt eine entscheidende Rolle in der multimodalen Forschung und wird bereits in zahlreichen realen Web-Anwendungen eingesetzt. Das CLIP-Modell (Contrastive Language-Image Pre-training), ein vortrainiertes Bild-Sprache-Modell, hat die Fähigkeit zur Lernung visueller Konzepte aus im Web gesammelten Bild-Text-Datensätzen demonstriert. In diesem Artikel stellen wir das CLIP4Clip-Modell vor, das das Wissen des CLIP-Modells auf die Video-Sprache-Retrieval-Aufgabe in einer end-to-end-Weise überträgt. Anhand empirischer Studien werden mehrere Fragen untersucht: 1) Ist ein Bildmerkmal ausreichend für die Video-Text-Retrieval-Aufgabe? 2) Wie wirkt sich eine Nach-Prätrainierung auf einem großen Video-Text-Datensatz basierend auf CLIP auf die Leistung aus? 3) Welches praktische Modellierungsmechanismus eignet sich zur Erfassung der zeitlichen Abhängigkeiten zwischen Videobildern? 4) Wie sensibel sind die Hyperparameter des Modells gegenüber der Video-Text-Retrieval-Aufgabe? Umfassende experimentelle Ergebnisse zeigen, dass das aus CLIP übertragene CLIP4Clip-Modell state-of-the-art (SOTA)-Ergebnisse auf verschiedenen Video-Text-Retrieval-Datensätzen erzielt, darunter MSR-VTT, MSVC, LSMDC, ActivityNet und DiDeMo. Wir stellen unseren Quellcode unter https://github.com/ArrowLuo/CLIP4Clip zur Verfügung.