iPerceive: Anwendung von Alltagswissen-Reasoning bei multimodalen dichten Videozusammenfassungen und Video-Fragebeantwortung

Die meisten bisherigen Ansätze im Bereich des visuellen Verständnisses beruhen ausschließlich auf der Analyse von „Was“ (z. B. Ereigniserkennung) und „Wo“ (z. B. Ereignislokalisierung), was in einigen Fällen nicht ausreicht, um korrekte kontextuelle Beziehungen zwischen Ereignissen zu beschreiben oder zu fehlerhafter visueller Aufmerksamkeit führt. Ein wesentlicher Aspekt, der uns als Menschen fundamental von Maschinen unterscheidet, ist unsere Instinkt, hinter jeder Beziehung – etwa einem Ereignis Y, das als direkte Folge eines Ereignisses X auftritt – eine Kausalität zu suchen. In diesem Sinne stellen wir iPerceive vor, einen Rahmen, der in der Lage ist, die „Warum“-Beziehungen zwischen Ereignissen in Videos zu verstehen, indem er mithilfe kontextueller Hinweise eine Alltagswissensbasis aufbaut, um kausale Zusammenhänge zwischen Objekten im Video abzuleiten. Wir belegen die Wirksamkeit unserer Methode anhand der Aufgaben Dichte-Videoskriptgenerierung (Dense Video Captioning, DVC) und Video-Fragenbeantwortung (VideoQA). Darüber hinaus basieren die meisten vorherigen Arbeiten zu DVC und VideoQA ausschließlich auf visuellen Informationen, während andere Modalitäten wie Audio und Sprache für die Wahrnehmung einer Umgebung durch einen menschlichen Beobachter von entscheidender Bedeutung sind. Wir formulieren die DVC- und VideoQA-Aufgaben als maschinelle Übersetzungsprobleme, die mehrere Modalitäten nutzen. Durch die Bewertung der Leistungsfähigkeit von iPerceive DVC und iPerceive VideoQA auf den Datensätzen ActivityNet Captions und TVQA zeigen wir, dass unser Ansatz die derzeitige State-of-the-Art-Technik übertrifft. Der Quellcode und Beispiele sind unter iperceive.amanchadha.com verfügbar.