Heterogenes Speichermodell mit multimodalem Aufmerksamkeitsmechanismus für Video-Fragebeantwortung

In dieser Arbeit schlagen wir einen neuen, von Anfang bis Ende trainierbaren Video-Frage-Antwort-Rahmen (VideoQA) vor, der aus drei Hauptkomponenten besteht: 1) einem neuen heterogenen Speicher, der globale Kontextinformationen effektiv aus Erscheinungs- und Bewegungsmerkmalen lernen kann; 2) einem neu gestalteten Frage-Speicher, der das Verständnis der komplexen Semantik der Frage unterstützt und die abgefragten Themen hervorhebt; und 3) einer neuen multimodalen Fusionsebene, die durch Beachten relevanter visueller und textbasierter Hinweise mit selbstaktualisierter Aufmerksamkeit mehrstufiges Schließen durchführt. Unser VideoQA-Modell generiert zunächst die global kontextsensiblen visuellen und textuellen Merkmale jeweils durch Interaktion der aktuellen Eingaben mit den Speicherinhalten. Danach führt es eine aufmerksamkeitsgesteuerte Fusion der multimodalen visuellen und textuellen Darstellungen durch, um die korrekte Antwort zu ermitteln. Mehrere Schleifen des Schließens können durchgeführt werden, um die Aufmerksamkeitsgewichte der multimodalen Daten iterativ zu verfeinern und die endgültige Darstellung des Frage-Antwort-Paares zu verbessern. Experimentelle Ergebnisse zeigen, dass unser Ansatz auf vier VideoQA-Benchmark-Datensätzen den Stand der Technik erreicht.