HyperAIHyperAI

Command Palette

Search for a command to run...

Leichtgewichtiger rekurrenter cross-modaler Encoder für Video-Fragebeantwortung

Cheol Jeong Steve Andreas Immanuel

Zusammenfassung

Eine Video-Frage-Antwort-Aufgabe lässt sich im Wesentlichen darauf zurückführen, wie die Informationen zwischen Text und Video effektiv fusioniert werden, um eine Antwort vorherzusagen. Die meisten Ansätze verwenden einen Transformer-Encoder als Kreuzmodalen-Encoder, um beide Modalitäten durch Ausnutzung des vollständigen Selbst-Attention-Mechanismus zu fusionieren. Aufgrund der hohen Rechenkosten des Selbst-Attention-Verfahrens und der hohen Dimensionalität videobasierter Daten müssen diese Ansätze entweder: 1) den Kreuzmodalen-Encoder ausschließlich auf offline-extrahierten Video- und Textmerkmalen trainieren oder 2) den Kreuzmodalen-Encoder gemeinsam mit den Merkmalsextraktoren für Video und Text trainieren, allerdings nur mit sparsam abgetasteten Videoframes. Die alleinige Nutzung von offline-extrahierten Merkmalen leidet unter einer Diskontinuität zwischen den extrahierten Merkmalen und den Daten der nachgeschalteten Aufgabe, da die Video- und Textmerkmalsextraktoren unabhängig voneinander auf unterschiedlichen Domänen trainiert wurden – beispielsweise zur Aktionserkennung für den Video-Extractor und zur semantischen Klassifikation für den Text-Extractor. Die Verwendung von sparsam abgetasteten Videoframes kann hingegen zu Informationsverlust führen, wenn das Video eine reichhaltige Information beinhaltet oder eine große Anzahl an Frames aufweist. Um diese Probleme zu mildern, schlagen wir einen leichtgewichtigen rekurrenten Kreuzmodalen-Encoder (Lightweight Recurrent Cross-modal Encoder, LRCE) vor, der die Selbst-Attention-Operation durch einen einzigen lernbaren Sonder-Token ersetzt, der Text- und Video-Merkmale zusammenfasst. Dadurch entsteht ein deutlich geringerer Rechenaufwand. Zusätzlich führen wir eine neuartige Multi-Segment-Abtastung ein, bei der die Videoframes aus verschiedenen Segmente des Videos sparsam abgetastet werden, um eine feinere Informationsdarstellung zu ermöglichen. In umfangreichen Experimenten an drei VideoQA-Datensätzen zeigen wir, dass der LRCE im Vergleich zu vorhergehenden Ansätzen erhebliche Leistungsverbesserungen erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp