HyperAIHyperAI
vor 2 Monaten

Video-Text-Retrieval mit Multiple-Choice-Fragen verbinden

Yuying Ge; Yixiao Ge; Xihui Liu; Dian Li; Ying Shan; Xiaohu Qie; Ping Luo
Video-Text-Retrieval mit Multiple-Choice-Fragen verbinden
Abstract

Das Vor-Training eines Modells zur Lernbarkeit von übertragbaren Video-Text-Darstellungen für die Retrieval-Aufgabe hat in den letzten Jahren viel Aufmerksamkeit gefunden. Frühere vorherrschende Arbeiten verwenden hauptsächlich zwei getrennte Encoder für eine effiziente Retrieval, ignorieren aber lokale Assoziationen zwischen Videos und Texten. Eine andere Forschungsrichtung nutzt einen gemeinsamen Encoder, um Videos und Texte miteinander zu verknüpfen, was jedoch aufgrund der Notwendigkeit, jedes Text-Video-Paar in das Modell einzuführen, zu geringer Effizienz führt. In dieser Arbeit ermöglichen wir feingranulare Video-Text-Interaktionen und gleichzeitig eine hohe Effizienz für die Retrieval durch eine neuartige Vor-Aufgabe, die als Multiple Choice Questions (MCQ) bezeichnet wird. Dabei wird ein parametrisches Modul namens BridgeFormer trainiert, um die "Fragen" zu beantworten, die durch Rückgriff auf die Videofeatures aus den Textfeatures konstruiert werden. Insbesondere nutzen wir die reichen Semantiken des Textes (d.h., Substantive und Verben), um Fragen zu erstellen, mit denen der Videoencoder trainiert werden kann, um regionale Inhalte und zeitliche Dynamiken besser zu erfassen. In Form von Fragen und Antworten können die semantischen Assoziationen zwischen lokalen Video-Text-Features angemessen hergestellt werden. BridgeFormer kann für nachgeschaltete Retrieval-Aufgaben entfernt werden, was ein effizientes und flexibles Modell mit nur zwei Encodern ermöglicht. Unsere Methode übertrifft den aktuellen Stand der Technik bei der populären Text-to-Video-Retrieval-Aufgabe in fünf Datensätzen mit unterschiedlichen Experimentaufbauten (d.h., zero-shot und fine-tune), darunter HowTo100M (eine Million Videos). Wir führen zudem zero-shot Aktionserkennung durch, die als Video-to-Text-Retrieval formuliert werden kann, wobei unser Ansatz seine Konkurrenten erheblich übertrifft. Als zusätzlicher Vorteil erreicht unsere Methode vergleichbare Ergebnisse bei viel kürzeren Vor-Trainingsvideos in mono-modalen nachgeschalteten Aufgaben wie z.B. Aktionserkennung mit linearer Auswertung.