HyperAIHyperAI

Command Palette

Search for a command to run...

Ein gemeinsames Sequenzfusionmodell für Video-Fragebeantwortung und -Suche

Youngjae Yu Jongseok Kim Gunhee Kim

Zusammenfassung

Wir präsentieren einen Ansatz namens JSFusion (Joint Sequence Fusion), der die semantische Ähnlichkeit zwischen beliebigen Paaren von multimodalen Sequenzdaten (z.B. einem Videoausschnitt und einem Sprachsatzen) messen kann. Unser multimodales Matching-Netzwerk besteht aus zwei wesentlichen Komponenten. Zunächst bildet der Joint Semantic Tensor eine dichte paarweise Darstellung von zwei Sequenzdaten zu einem 3D-Tensor. Anschließend berechnet der Faltungs-Hierarchischer Dekoder ihren Ähnlichkeitswert, indem er verborgene hierarchische Übereinstimmungen zwischen den beiden sequentiellen Modalitäten entdeckt. Beide Module nutzen hierarchische Aufmerksamkeitsmechanismen, die lernen, gut übereinstimmende Darstellungsmuster zu fördern, während sie schlecht ausgerichtete Muster in einer aufsteigenden Weise eliminieren. Obwohl JSFusion ein universelles Modell ist, das auf beliebige multimodale Sequenzdaten anwendbar ist, konzentriert sich diese Arbeit auf videobasierte Sprachaufgaben, einschließlich multimodal(er) Retrieval und Video-QA. Wir evaluieren das JSFusion-Modell in drei Retrieval- und VQA-Aufgaben im LSMDC-Datensatz, bei denen unser Modell bisher die besten Ergebnisse erzielt hat. Zudem führen wir Multiple-Choice- und Filmaufgaben für den MSR-VTT-Datensatz durch, bei denen unser Ansatz viele state-of-the-art Methoden übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp