HyperAIHyperAI

Command Palette

Search for a command to run...

Ein einfaches Framework für die Videoretrieval-Anwendung mit CLIP

Jesús Andrés Portillo-Quintero José Carlos Ortiz-Bayliss Hugo Terashima-Marín

Zusammenfassung

Video Retrieval ist eine anspruchsvolle Aufgabe, bei der eine Textanfrage mit einem Video oder umgekehrt verknüpft wird. Die meisten bestehenden Ansätze zur Lösung dieses Problems beruhen auf von Nutzern erstellten Annotationen. Obwohl diese Vorgehensweise einfach erscheint, ist sie in der Praxis nicht immer umsetzbar. In dieser Arbeit untersuchen wir die Anwendung des Sprache-Bild-Modells CLIP, um Videodarstellungen zu gewinnen, ohne auf solche Annotationen angewiesen zu sein. Dieses Modell wurde explizit darauf trainiert, einen gemeinsamen Raum zu lernen, in dem Bilder und Text verglichen werden können. Durch die Anwendung verschiedener in diesem Dokument beschriebener Techniken erweitern wir seine Anwendbarkeit auf Videos und erreichen dabei Stand-der-Kunst-Ergebnisse auf den Benchmarks MSR-VTT und MSVD.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ein einfaches Framework für die Videoretrieval-Anwendung mit CLIP | Paper | HyperAI