HyperAIHyperAI

Command Palette

Search for a command to run...

Open-vocabulary Video Question Answering: Ein neuer Benchmark zur Bewertung der Generalisierbarkeit von Video Question Answering-Modellen

Dohwan Ko Ji Soo Lee Miso Choi Jaewon Chu Jihwan Park Hyunwoo J. Kim

Zusammenfassung

Video Question Answering (VideoQA) ist eine anspruchsvolle Aufgabe, die komplexe multimodale Schlussfolgerungen erfordert. Im Gegensatz zu Multiple-Choice VideoQA, bei dem die Antwort aus mehreren vorgegebenen Optionen vorhergesagt wird, zielt die offene VideoQA darauf ab, Fragen zu beantworten, ohne die möglichen Antworten einzuschränken. Die meisten bisherigen VideoQA-Modelle formulieren jedoch die offene VideoQA als Klassifikationsaufgabe, bei der Video-Frage-Paare in eine feste Antwortmenge eingeordnet werden – also eine geschlossene Vokabular-Formulierung –, die nur häufig vorkommende Antworten enthält (z. B. die Top-1000-Antworten). Dadurch neigen die Modelle stark zu häufigen Antworten und zeigen eine schlechte Generalisierungsfähigkeit auf seltene oder unbekannte Antworten. Wir stellen daher einen neuen Benchmark, Open-vocabulary Video Question Answering (OVQA), vor, um die Generalisierungsfähigkeit von VideoQA-Modellen anhand seltener und bisher nicht gesehener Antworten zu messen. Zudem führen wir einen neuartigen GNN-basierten soft verbalizer ein, um die Generalisierungsfähigkeit des Modells zu verbessern, indem Informationen aus ähnlichen Wörtern zur Vorhersage seltener und unbekannter Antworten aggregiert werden. Für die Evaluation modifizieren wir bestehende (geschlossene Vokabular-) Modelle für die offene VideoQA und verbessern deren Leistung, indem wir zusätzlich seltene und unbekannte Antworten berücksichtigen. Unsere Ablationstudien und qualitative Analysen zeigen, dass unser GNN-basierter soft verbalizer die Modellleistung weiter steigert, insbesondere bei seltenen und unbekannten Antworten. Wir hoffen, dass unser Benchmark OVQA als Leitfaden zur Bewertung der Generalisierungsfähigkeit von VideoQA-Modellen dient und zukünftige Forschung anregt. Der Quellcode ist unter https://github.com/mlvlab/OVQA verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp