vor 17 Tagen

Cap4Video: Was können ergänzende Captions für die Text-Video-Retrieval-Leistung bewirken?

Wenhao Wu, Haipeng Luo, Bo Fang, Jingdong Wang, Wanli Ouyang

Abstract

Die meisten bestehenden Methoden für die Text-Video-Abfrageverknüpfung konzentrieren sich auf die Kreuzmodalen-Übereinstimmung zwischen dem visuellen Inhalt von Videos und textuellen Abfragesätzen. In realen Anwendungsszenarien sind Online-Videos jedoch häufig mit relevanten Textinformationen wie Titeln, Tags und sogar Untertiteln versehen, die zur Abfrageverknüpfung genutzt werden können. Diese Erkenntnis hat uns motiviert, einen neuen Ansatz für die Text-Video-Abfrageverknüpfung vorzuschlagen, bei dem wir direkt zugehörige Beschreibungen aus Videos mittels Zero-Shot-Video-Beschreibung generieren, wobei Wissen aus web-skaligen vortrainierten Modellen (z. B. CLIP und GPT-2) genutzt wird. Angesichts der generierten Beschreibungen stellt sich die natürliche Frage: Welche Vorteile bringen diese für die Text-Video-Abfrageverknüpfung? Um diese Frage zu beantworten, führen wir Cap4Video ein, einen neuen Rahmen, der Beschreibungen auf drei Arten nutzt: i) Eingabedaten: Video-Beschreibung-Paare können die Trainingsdaten erweitern. ii) Intermediäre Merkmalsinteraktion: Wir führen eine Kreuzmodale Merkmalsinteraktion zwischen Video und Beschreibung durch, um verbesserte Video-Repräsentationen zu erzeugen. iii) Ausgabewert: Der Abfrage-Beschreibung-Übereinstimmungszweig kann den ursprünglichen Abfrage-Video-Übereinstimmungszweig für die Text-Video-Abfrageverknüpfung ergänzen. Wir führen umfassende Ablationsstudien durch, um die Wirksamkeit unseres Ansatzes zu belegen. Ohne jegliche Nachverarbeitung erreicht Cap4Video state-of-the-art Ergebnisse auf vier etablierten Benchmarks für Text-Video-Abfrageverknüpfung: MSR-VTT (51,4 %), VATEX (66,6 %), MSVD (51,8 %) und DiDeMo (52,0 %). Der Quellcode ist unter https://github.com/whwu95/Cap4Video verfügbar.