HyperAIHyperAI
vor 18 Tagen

Leichtgewichtiger rekurrenter cross-modaler Encoder für Video-Fragebeantwortung

{Cheol Jeong, Steve Andreas Immanuel}
Abstract

Eine Video-Frage-Antwort-Aufgabe lässt sich im Wesentlichen darauf zurückführen, wie die Informationen zwischen Text und Video effektiv fusioniert werden, um eine Antwort vorherzusagen. Die meisten Ansätze verwenden einen Transformer-Encoder als Kreuzmodalen-Encoder, um beide Modalitäten durch Ausnutzung des vollständigen Selbst-Attention-Mechanismus zu fusionieren. Aufgrund der hohen Rechenkosten des Selbst-Attention-Verfahrens und der hohen Dimensionalität videobasierter Daten müssen diese Ansätze entweder: 1) den Kreuzmodalen-Encoder ausschließlich auf offline-extrahierten Video- und Textmerkmalen trainieren oder 2) den Kreuzmodalen-Encoder gemeinsam mit den Merkmalsextraktoren für Video und Text trainieren, allerdings nur mit sparsam abgetasteten Videoframes. Die alleinige Nutzung von offline-extrahierten Merkmalen leidet unter einer Diskontinuität zwischen den extrahierten Merkmalen und den Daten der nachgeschalteten Aufgabe, da die Video- und Textmerkmalsextraktoren unabhängig voneinander auf unterschiedlichen Domänen trainiert wurden – beispielsweise zur Aktionserkennung für den Video-Extractor und zur semantischen Klassifikation für den Text-Extractor. Die Verwendung von sparsam abgetasteten Videoframes kann hingegen zu Informationsverlust führen, wenn das Video eine reichhaltige Information beinhaltet oder eine große Anzahl an Frames aufweist. Um diese Probleme zu mildern, schlagen wir einen leichtgewichtigen rekurrenten Kreuzmodalen-Encoder (Lightweight Recurrent Cross-modal Encoder, LRCE) vor, der die Selbst-Attention-Operation durch einen einzigen lernbaren Sonder-Token ersetzt, der Text- und Video-Merkmale zusammenfasst. Dadurch entsteht ein deutlich geringerer Rechenaufwand. Zusätzlich führen wir eine neuartige Multi-Segment-Abtastung ein, bei der die Videoframes aus verschiedenen Segmente des Videos sparsam abgetastet werden, um eine feinere Informationsdarstellung zu ermöglichen. In umfangreichen Experimenten an drei VideoQA-Datensätzen zeigen wir, dass der LRCE im Vergleich zu vorhergehenden Ansätzen erhebliche Leistungsverbesserungen erzielt.