Lernsituationen-Hypergraphen für Video-Fragenbeantwortung

Die Beantwortung von Fragen zu komplexen Situationen in Videos erfordert nicht nur die Erfassung der Anwesenheit von Akteuren, Objekten und deren Beziehungen, sondern auch die Entwicklung dieser Beziehungen im Laufe der Zeit. Ein Situationen-Hypergraph ist eine Darstellung, die Situationen als Szenen-Teilgraphen für Videoframes und Hyperkanten für verbundene Teilgraphen beschreibt und vorgeschlagen wurde, um alle diese Informationen in einer kompakten, strukturierten Form zu erfassen. In dieser Arbeit präsentieren wir eine Architektur für Video-Question-Answering (VQA), die die Beantwortung von Fragen im Zusammenhang mit Videoinhalten ermöglicht, indem sie Situationen-Hypergraphen vorhersagt – eine Methode, die als Situation Hyper-Graph based Video Question Answering (SHG-VQA) bezeichnet wird. Dazu trainieren wir einen Situationen-Hypergraphen-Decoder, um implizit Graphendarstellungen mit Aktionen sowie Objekt-/Mensch-Objekt-Beziehungen aus dem Eingabevideoclip zu identifizieren. Zudem nutzen wir eine Kreuz-Attention zwischen den vorhergesagten Situationen-Hypergraphen und der Fragembedding, um die korrekte Antwort vorherzusagen. Die vorgeschlagene Methode wird end-to-end trainiert und durch eine VQA-Verlustfunktion optimiert, die die Kreuzentropie verwendet, sowie durch einen Hungarian-Matching-Verlust für die Vorhersage des Situationen-Graphen. Die Wirksamkeit der vorgeschlagenen Architektur wird umfassend an zwei anspruchsvollen Benchmarks evaluiert: AGQA und STAR. Unsere Ergebnisse zeigen, dass das Lernen der zugrundeliegenden Situationen-Hypergraphen dem System hilft, seine Leistung bei neuen Herausforderungen im Bereich des Video-Question-Answering erheblich zu verbessern.