Ein gemeinsames Sequenzfusionmodell für Video-Fragebeantwortung und -Suche

Wir präsentieren einen Ansatz namens JSFusion (Joint Sequence Fusion), der die semantische Ähnlichkeit zwischen beliebigen Paaren von multimodalen Sequenzdaten (z.B. einem Videoausschnitt und einem Sprachsatzen) messen kann. Unser multimodales Matching-Netzwerk besteht aus zwei wesentlichen Komponenten. Zunächst bildet der Joint Semantic Tensor eine dichte paarweise Darstellung von zwei Sequenzdaten zu einem 3D-Tensor. Anschließend berechnet der Faltungs-Hierarchischer Dekoder ihren Ähnlichkeitswert, indem er verborgene hierarchische Übereinstimmungen zwischen den beiden sequentiellen Modalitäten entdeckt. Beide Module nutzen hierarchische Aufmerksamkeitsmechanismen, die lernen, gut übereinstimmende Darstellungsmuster zu fördern, während sie schlecht ausgerichtete Muster in einer aufsteigenden Weise eliminieren. Obwohl JSFusion ein universelles Modell ist, das auf beliebige multimodale Sequenzdaten anwendbar ist, konzentriert sich diese Arbeit auf videobasierte Sprachaufgaben, einschließlich multimodal(er) Retrieval und Video-QA. Wir evaluieren das JSFusion-Modell in drei Retrieval- und VQA-Aufgaben im LSMDC-Datensatz, bei denen unser Modell bisher die besten Ergebnisse erzielt hat. Zudem führen wir Multiple-Choice- und Filmaufgaben für den MSR-VTT-Datensatz durch, bei denen unser Ansatz viele state-of-the-art Methoden übertrifft.