vor 2 Monaten

EINGANG: Ereignisbasiertes interpretierbares Schließen für VideoQA

Ayyubi, Hammad ; Liu, Junzhang ; Asgarov, Ali ; Hakim, Zaber Ibn Abdul ; Sarker, Najibul Haque ; Wang, Zhecan ; Tang, Chia-Wei ; Alomari, Hani ; Atabuzzaman, Md. ; Lin, Xudong ; Dyava, Naveen Reddy ; Chang, Shih-Fu ; Thomas, Chris

Details der Forschungsarbeit anzeigen

EINGANG: Ereignisbasiertes interpretierbares Schließen für VideoQA

Abstract

In dieser Arbeit stellen wir ENTER vor, ein interpretierbares Videos-Frage-Antwort-System (VideoQA), das auf Ereignisgraphen basiert. Ereignisgraphen wandeln Videos in graphische Darstellungen um, bei denen die Videoereignisse die Knoten und die Beziehungen zwischen den Ereignissen (zeitlich/kausal/hierarchisch) die Kanten bilden. Diese strukturierte Darstellung bietet viele Vorteile: 1) Interpretierbare VideoQA durch generierten Code, der den Ereignisgraphen analysiert; 2) Einbeziehung kontextueller visueller Informationen im Schlussfolgerungsprozess (Codegenerierung) durch Ereignisgraphen; 3) Robuste VideoQA durch hierarchische iterative Aktualisierung der Ereignisgraphen. Bestehende interpretierbare VideoQA-Systeme sind oft von oben nach unten ausgerichtet und ignorieren dabei tiefebene visuelle Informationen bei der Generierung des Schlussfolgerungsplans, wodurch sie anfällig für Fehler sind. Während von unten nach oben gerichtete Ansätze Antworten aus visuellen Daten erzeugen, fehlt ihnen die Interpretierbarkeit. Experimentelle Ergebnisse auf NExT-QA, IntentQA und EgoSchema zeigen nicht nur, dass unsere Methode bestehende von oben nach unten gerichtete Ansätze übertrifft und gleichwertige Leistungen gegenüber von unten nach oben gerichteten Ansätzen erzielt, sondern dass sie vor allem eine überlegene Interpretierbarkeit und Erklärbarkeit im Schlussfolgerungsprozess bietet.