HyperAIHyperAI

Command Palette

Search for a command to run...

CLIP2Video: Video-Text-Retrieval mittels Bild-CLIP meistern

Han Fang Pengfei Xiong Luhui Xu Yu Chen

Zusammenfassung

Wir stellen das CLIP2Video-Netzwerk vor, um das Bild-Sprache-Vortrainingsmodell auf die Video-Text-Recherche auf eine end-to-end-Weise zu übertragen. Führende Ansätze im Bereich der Video- und Sprachlernung versuchen, räumlich-zeitliche Video-Features sowie multimodale Interaktionen zwischen Videos und Sprache aus einem großskaligen Video-Text-Datensatz zu extrahieren. Im Gegensatz dazu nutzen wir ein vortrainiertes Bild-Sprache-Modell, vereinfachen es zu einem zweistufigen Framework mit koordiniertem Lernen von Bild-Text-Beziehungen und der Verbesserung der zeitlichen Beziehungen zwischen Videoframes und Video-Text, wodurch es auf vergleichsweise kleineren Datensätzen trainiert werden kann. Konkret basiert unser Modell auf den räumlichen Semantiken, die vom Contrastive Language-Image Pretraining (CLIP)-Modell erfasst werden, und integriert einen Temporal Difference Block zur Erfassung von Bewegungen auf fein zeitlichen Video-Frame-Ebenen sowie einen Temporal Alignment Block zur erneuten Ausrichtung der Tokens von Videoclips und Phrasen, um die multimodale Korrelation zu stärken. Wir führen umfassende Ablationsstudien durch und erreichen state-of-the-art-Leistungen auf zentralen Benchmarks für Text-zu-Video- und Video-zu-Text-Recherche, einschließlich neuer Rekordwerte für die Recherche-Genauigkeit auf MSR-VTT, MSVD und VATEX.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp