HyperAIHyperAI
vor 7 Tagen

Große Sprachmodelle sind zeitliche und kausale Reasoner für die Video-Fragebeantwortung

Dohwan Ko, Ji Soo Lee, Wooyoung Kang, Byungseok Roh, Hyunwoo J. Kim
Große Sprachmodelle sind zeitliche und kausale Reasoner für die Video-Fragebeantwortung
Abstract

Große Sprachmodelle (LLMs) haben bemerkenswerte Leistungen bei einer Vielzahl von Aufgaben im Bereich der natürlichen Sprachverstehens und -generierung gezeigt. Wir beobachten, dass LLMs wirksame Vorkenntnisse (priors) bieten, um sprachliche Kurzschlüsse für zeitliche und kausale Schlussfolgerungen im Kontext von Videofragen und -antworten (VideoQA) zu nutzen. Allerdings führen solche Vorkenntnisse häufig zu suboptimalen Ergebnissen in VideoQA, da das Modell übermäßig auf die Fragen angewiesen ist, d. h. eine sprachliche Verzerrung (linguistic bias) aufweist, während es visuelle Inhalte vernachlässigt. Dies wird auch als „unbegründete Vermutungen“ oder „Halluzinationen“ bezeichnet. Um dieses Problem anzugehen, ohne die Vorteile der LLMs im Bereich VideoQA zu vernachlässigen, schlagen wir einen neuen Ansatz namens Flipped-VQA vor, bei dem das Modell dazu angeregt wird, alle Kombinationen des Tripels ⟨V, Q, A⟩ vorherzusagen, indem die Quellpaare und Zielbezeichnungen umgekehrt werden, um deren komplexe Beziehungen besser zu verstehen – genauer gesagt: A, Q und V jeweils gegeben VQ, VA und QA-Paare vorherzusagen. In dieser Arbeit entwickeln wir LLaMA-VQA, indem wir Flipped-VQA auf LLaMA anwenden, und zeigen, dass es sowohl gegenüber LLM-basierten als auch gegenüber nicht-LLM-basierten Modellen auf fünf anspruchsvollen VideoQA-Benchmarks eine überlegene Leistung erzielt. Darüber hinaus ist unser Flipped-VQA ein allgemeiner Rahmen, der auf verschiedene LLMs (wie OPT und GPT-J) anwendbar ist und deren Leistung konsistent verbessert. Experimentell zeigen wir, dass Flipped-VQA nicht nur die Nutzung sprachlicher Kurzschlüsse verbessert, sondern auch die sprachliche Verzerrung reduziert, die zu falschen Antworten führt, die übermäßig auf die Frage abstellen. Der Quellcode ist unter https://github.com/mlvlab/Flipped-VQA verfügbar.

Große Sprachmodelle sind zeitliche und kausale Reasoner für die Video-Fragebeantwortung | Neueste Forschungsarbeiten | HyperAI