Ein CLIP-Hitchhiker’s Guide zu der Langvideosuche

Unser Ziel in diesem Paper ist die Anpassung von Bild-Text-Modellen für die Langzeitvideo-Suche. Kürzlich haben Arbeiten gezeigt, dass durch die Nutzung von CLIP eine state-of-the-art-Leistung bei der Video-Suche erzielt werden kann, indem effektiv die Bild-Text-Repräsentationen für Video-Aufgaben genutzt werden. Allerdings zeigte sich bisher nur geringer Erfolg bei der Lernung von zeitlichen Aggregationen, die die Mittelwert-Pooling-Strategie der pro Frame extrahierten Bildrepräsentationen durch CLIP übertrifft. Wir stellen fest, dass die einfache, jedoch wirksame Baseline des gewichteten Mittelwerts der Frame-Embeddings mittels Abfragebewertung eine erhebliche Verbesserung gegenüber allen vorherigen Ansätzen zur zeitlichen Modellierung sowie gegenüber dem Mittelwert-Pooling darstellt. Dadurch liefern wir eine verbesserte Basis für den Vergleich durch andere Forscher und demonstrieren die state-of-the-art-Leistung dieser einfachen Baseline an einer Reihe von Benchmarks für die Langzeitvideo-Suche.