HyperAIHyperAI
vor 9 Tagen

Video als bedingte Graphenhierarchie für fragebasierte Antwortgebung auf mehreren Granularitätsstufen

Junbin Xiao, Angela Yao, Zhiyuan Liu, Yicong Li, Wei Ji, Tat-Seng Chua
Video als bedingte Graphenhierarchie für fragebasierte Antwortgebung auf mehreren Granularitätsstufen
Abstract

Fragebeantwortung in Videos erfordert von Modellen, sowohl komplexe Videodaten als auch Sprachinformationen zu verstehen und zu verarbeiten, um korrekte Antworten abzuleiten. Bisherige Ansätze konzentrieren sich darauf, komplexe, multimodale Wechselwirkungen zu entwerfen, um Informationen aus beiden Modalitäten zu fusionieren, wobei Video und Frage jeweils als sequenzielle Abfolge von Frames und Wörtern kodiert werden. Trotz ihres Erfolgs basieren diese Methoden im Wesentlichen auf der sequenziellen Struktur von Videoinhalten und Fragen und bieten wenig Einsicht in das Problem der Fragebeantwortung sowie eine geringe Interpretierbarkeit. In dieser Arbeit argumentieren wir, dass, obwohl Videos als Frame-Sequenzen präsentiert werden, die visuellen Elemente (z. B. Objekte, Aktionen, Aktivitäten und Ereignisse) im semantischen Raum nicht sequenziell, sondern hierarchisch strukturiert sind. Um der mehrschichtigen Natur sprachlicher Konzepte in Sprachabfragen gerecht zu werden, schlagen wir vor, Videos als bedingte Graphenhierarchie zu modellieren, die visuelle Fakten unterschiedlicher Granularität auf einer schichtweisen Weise miteinander verwebt, unterstützt durch entsprechende textuelle Hinweise. Trotz der Einfachheit zeigt unsere umfassende experimentelle Evaluierung die Überlegenheit dieser bedingten hierarchischen Graphenarchitektur: Sie erreicht deutliche Leistungsverbesserungen gegenüber früheren Methoden und zeigt zudem eine bessere Generalisierungsfähigkeit bei unterschiedlichen Fragearten. Zusätzliche Analysen belegen zudem die Zuverlässigkeit des Modells, da es sinnvolle visuell-textuelle Beweise für die vorhergesagten Antworten liefert.