HyperAIHyperAI

Command Palette

Search for a command to run...

CLIP-ViP: Anpassung eines vortrainierten Bild-Text-Modells an die Ausrichtung von Video-Sprache-Darstellungen

Hongwei Xue Yuchong Sun Bei Liu Jianlong Fu Ruihua Song Houqiang Li Jiebo Luo

Zusammenfassung

Vortrainierte Bild-Text-Modelle wie CLIP haben die starke Leistungsfähigkeit der vision-sprachlichen Darstellung demonstriert, die aus einer großen Menge an webbasiert gesammelten Bild-Text-Daten gelernt wurde. Aufgrund der gut erlernten visuellen Merkmale übertragen einige bestehende Arbeiten die Bildrepräsentation in den Video-Bereich und erzielen hierbei gute Ergebnisse. Allerdings bleibt die Nutzung von bild-sprachlich vortrainierten Modellen (z. B. CLIP) für eine nachträgliche Video-Sprache-Vortraining (Post-Pretraining) weiterhin wenig erforscht. In dieser Arbeit untersuchen wir zwei zentrale Fragen: 1) Welche Faktoren behindern das Post-Pretraining von CLIP, die Leistung auf Video-Sprache-Aufgaben weiter zu verbessern? und 2) Wie können diese Faktoren gemildert werden? Durch eine Reihe vergleichender Experimente und Analysen stellen wir fest, dass die Datenmenge und der Domänenunterschied zwischen den Sprachquellen erheblichen Einfluss haben. Darauf aufbauend schlagen wir eine Omnisource Cross-Modal-Lernmethode mit einem Video-Proxy-Mechanismus auf Basis von CLIP vor, die wir CLIP-ViP nennen. Ausführliche Ergebnisse zeigen, dass unsere Methode die Leistung von CLIP bei der Video-Text-Abfrage erheblich verbessert. Zudem erreicht unser Modell state-of-the-art (SOTA)-Ergebnisse auf einer Vielzahl von Datensätzen, darunter MSR-VTT, DiDeMo, LSMDC und ActivityNet. Wir werden unseren Code sowie die vortrainierten CLIP-ViP-Modelle unter https://github.com/microsoft/XPretrain/tree/main/CLIP-ViP veröffentlichen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp