Ein einfaches Framework für die Videoretrieval-Anwendung mit CLIP

Video Retrieval ist eine anspruchsvolle Aufgabe, bei der eine Textanfrage mit einem Video oder umgekehrt verknüpft wird. Die meisten bestehenden Ansätze zur Lösung dieses Problems beruhen auf von Nutzern erstellten Annotationen. Obwohl diese Vorgehensweise einfach erscheint, ist sie in der Praxis nicht immer umsetzbar. In dieser Arbeit untersuchen wir die Anwendung des Sprache-Bild-Modells CLIP, um Videodarstellungen zu gewinnen, ohne auf solche Annotationen angewiesen zu sein. Dieses Modell wurde explizit darauf trainiert, einen gemeinsamen Raum zu lernen, in dem Bilder und Text verglichen werden können. Durch die Anwendung verschiedener in diesem Dokument beschriebener Techniken erweitern wir seine Anwendbarkeit auf Videos und erreichen dabei Stand-der-Kunst-Ergebnisse auf den Benchmarks MSR-VTT und MSVD.