HyperAIHyperAI

Command Palette

Search for a command to run...

IntentQA: kontextbewusste Video-Intent-Reasoning

Lifeng Fan Wenjuan Han Ping Wei Jiapeng Li

Zusammenfassung

In diesem Paper stellen wir eine neuartige Aufgabe namens IntentQA vor, eine spezielle VideoQA-Aufgabe, die sich auf die Inferenz von Videointentionen konzentriert und aufgrund ihrer Vorteile zunehmend an Bedeutung für KI gewinnt, da sie KI-Agenten die Fähigkeit verleiht, über reine Erkennung hinaus im Alltag zu reasoning. Wir tragen zudem einen großskaligen VideoQA-Datensatz für diese Aufgabe bei. Wir schlagen ein kontextbewusstes Modell zur Video-Intentionserkennung (CaVIR) vor, das sich aus drei Komponenten zusammensetzt: i) einer Video-Query-Sprache (VQL) zur verbesserten multimodalen Repräsentation des situativen Kontexts, ii) einem Kontrastiven-Lern-Modul zur Nutzung kontrastiver Kontextinformationen und iii) einem Alltagswissen-Reasoning-Modul zur Integration von Alltagswissen-Kontext. Umfassende Experimente an dieser anspruchsvollen Aufgabe belegen die Wirksamkeit jedes Modulkomponenten, die Überlegenheit unseres vollständigen Modells gegenüber anderen Baselines sowie die Verallgemeinerungsfähigkeit unseres Ansatzes auf eine neue VideoQA-Aufgabe. Der Datensatz und der Quellcode sind unter folgender Adresse öffentlich zugänglich: https://github.com/JoseponLee/IntentQA.git


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
IntentQA: kontextbewusste Video-Intent-Reasoning | Paper | HyperAI