HyperAIHyperAI

Command Palette

Search for a command to run...

Ein CLIP-Hitchhiker’s Guide zu der Langvideosuche

Max Bain Arsha Nagrani Gül Varol Andrew Zisserman

Zusammenfassung

Unser Ziel in diesem Paper ist die Anpassung von Bild-Text-Modellen für die Langzeitvideo-Suche. Kürzlich haben Arbeiten gezeigt, dass durch die Nutzung von CLIP eine state-of-the-art-Leistung bei der Video-Suche erzielt werden kann, indem effektiv die Bild-Text-Repräsentationen für Video-Aufgaben genutzt werden. Allerdings zeigte sich bisher nur geringer Erfolg bei der Lernung von zeitlichen Aggregationen, die die Mittelwert-Pooling-Strategie der pro Frame extrahierten Bildrepräsentationen durch CLIP übertrifft. Wir stellen fest, dass die einfache, jedoch wirksame Baseline des gewichteten Mittelwerts der Frame-Embeddings mittels Abfragebewertung eine erhebliche Verbesserung gegenüber allen vorherigen Ansätzen zur zeitlichen Modellierung sowie gegenüber dem Mittelwert-Pooling darstellt. Dadurch liefern wir eine verbesserte Basis für den Vergleich durch andere Forscher und demonstrieren die state-of-the-art-Leistung dieser einfachen Baseline an einer Reihe von Benchmarks für die Langzeitvideo-Suche.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp