IntentQA: kontextbewusste Video-Intent-Reasoning

In diesem Paper stellen wir eine neuartige Aufgabe namens IntentQA vor, eine spezielle VideoQA-Aufgabe, die sich auf die Inferenz von Videointentionen konzentriert und aufgrund ihrer Vorteile zunehmend an Bedeutung für KI gewinnt, da sie KI-Agenten die Fähigkeit verleiht, über reine Erkennung hinaus im Alltag zu reasoning. Wir tragen zudem einen großskaligen VideoQA-Datensatz für diese Aufgabe bei. Wir schlagen ein kontextbewusstes Modell zur Video-Intentionserkennung (CaVIR) vor, das sich aus drei Komponenten zusammensetzt: i) einer Video-Query-Sprache (VQL) zur verbesserten multimodalen Repräsentation des situativen Kontexts, ii) einem Kontrastiven-Lern-Modul zur Nutzung kontrastiver Kontextinformationen und iii) einem Alltagswissen-Reasoning-Modul zur Integration von Alltagswissen-Kontext. Umfassende Experimente an dieser anspruchsvollen Aufgabe belegen die Wirksamkeit jedes Modulkomponenten, die Überlegenheit unseres vollständigen Modells gegenüber anderen Baselines sowie die Verallgemeinerungsfähigkeit unseres Ansatzes auf eine neue VideoQA-Aufgabe. Der Datensatz und der Quellcode sind unter folgender Adresse öffentlich zugänglich: https://github.com/JoseponLee/IntentQA.git