HyperAIHyperAI
vor 9 Tagen

ATM: Action Temporality Modeling für Video-Question-Answering

Junwen Chen, Jie Zhu, Yu Kong
ATM: Action Temporality Modeling für Video-Question-Answering
Abstract

Trotz erheblicher Fortschritte im Bereich der Video-Fragebeantwortung (VideoQA) bleiben bestehende Methoden hinter Fragen zurück, die kausale oder zeitliche Schlussfolgerungen über mehrere Frames erfordern. Dies lässt sich auf ungenaue Bewegungsrepräsentationen zurückführen. Wir stellen Action Temporality Modeling (ATM) vor, ein Ansatz zur Modellierung zeitlicher Zusammenhänge, der sich durch drei zentrale Innovationen auszeichnet: (1) eine Neubewertung des optischen Flusses, wobei wir zeigen, dass der optische Fluss effektiv ist, um langfristige zeitliche Beziehungen zu erfassen; (2) die Training der visuell-linguistischen Einbettungen mittels kontrastiver Lernverfahren in einer handlungsorientierten Weise, was zu verbesserten Handlungsrepräsentationen in sowohl der visuellen als auch der textuellen Modality führt; und (3) die Verhinderung der Antwort auf die Frage bei einem permutierten Video im Feintuning-Schritt, um eine spurious Korrelation zwischen Erscheinungsbild und Bewegung zu vermeiden und somit eine authentische zeitliche Schlussfolgerung sicherzustellen. In Experimenten zeigen wir, dass ATM gegenüber früheren Ansätzen in Bezug auf die Genauigkeit bei mehreren VideoQA-Aufgaben übertrifft und darüber hinaus eine überlegene Fähigkeit zur echten zeitlichen Schlussfolgerung aufweist.

ATM: Action Temporality Modeling für Video-Question-Answering | Neueste Forschungsarbeiten | HyperAI