HyperAIHyperAI

Command Palette

Search for a command to run...

Cap4Video: Was können ergänzende Captions für die Text-Video-Retrieval-Leistung bewirken?

Wenhao Wu Haipeng Luo Bo Fang Jingdong Wang Wanli Ouyang

Zusammenfassung

Die meisten bestehenden Methoden für die Text-Video-Abfrageverknüpfung konzentrieren sich auf die Kreuzmodalen-Übereinstimmung zwischen dem visuellen Inhalt von Videos und textuellen Abfragesätzen. In realen Anwendungsszenarien sind Online-Videos jedoch häufig mit relevanten Textinformationen wie Titeln, Tags und sogar Untertiteln versehen, die zur Abfrageverknüpfung genutzt werden können. Diese Erkenntnis hat uns motiviert, einen neuen Ansatz für die Text-Video-Abfrageverknüpfung vorzuschlagen, bei dem wir direkt zugehörige Beschreibungen aus Videos mittels Zero-Shot-Video-Beschreibung generieren, wobei Wissen aus web-skaligen vortrainierten Modellen (z. B. CLIP und GPT-2) genutzt wird. Angesichts der generierten Beschreibungen stellt sich die natürliche Frage: Welche Vorteile bringen diese für die Text-Video-Abfrageverknüpfung? Um diese Frage zu beantworten, führen wir Cap4Video ein, einen neuen Rahmen, der Beschreibungen auf drei Arten nutzt: i) Eingabedaten: Video-Beschreibung-Paare können die Trainingsdaten erweitern. ii) Intermediäre Merkmalsinteraktion: Wir führen eine Kreuzmodale Merkmalsinteraktion zwischen Video und Beschreibung durch, um verbesserte Video-Repräsentationen zu erzeugen. iii) Ausgabewert: Der Abfrage-Beschreibung-Übereinstimmungszweig kann den ursprünglichen Abfrage-Video-Übereinstimmungszweig für die Text-Video-Abfrageverknüpfung ergänzen. Wir führen umfassende Ablationsstudien durch, um die Wirksamkeit unseres Ansatzes zu belegen. Ohne jegliche Nachverarbeitung erreicht Cap4Video state-of-the-art Ergebnisse auf vier etablierten Benchmarks für Text-Video-Abfrageverknüpfung: MSR-VTT (51,4 %), VATEX (66,6 %), MSVD (51,8 %) und DiDeMo (52,0 %). Der Quellcode ist unter https://github.com/whwu95/Cap4Video verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Cap4Video: Was können ergänzende Captions für die Text-Video-Retrieval-Leistung bewirken? | Paper | HyperAI