Open-vocabulary Video Question Answering: Ein neuer Benchmark zur Bewertung der Generalisierbarkeit von Video Question Answering-Modellen

Video Question Answering (VideoQA) ist eine anspruchsvolle Aufgabe, die komplexe multimodale Schlussfolgerungen erfordert. Im Gegensatz zu Multiple-Choice VideoQA, bei dem die Antwort aus mehreren vorgegebenen Optionen vorhergesagt wird, zielt die offene VideoQA darauf ab, Fragen zu beantworten, ohne die möglichen Antworten einzuschränken. Die meisten bisherigen VideoQA-Modelle formulieren jedoch die offene VideoQA als Klassifikationsaufgabe, bei der Video-Frage-Paare in eine feste Antwortmenge eingeordnet werden – also eine geschlossene Vokabular-Formulierung –, die nur häufig vorkommende Antworten enthält (z. B. die Top-1000-Antworten). Dadurch neigen die Modelle stark zu häufigen Antworten und zeigen eine schlechte Generalisierungsfähigkeit auf seltene oder unbekannte Antworten. Wir stellen daher einen neuen Benchmark, Open-vocabulary Video Question Answering (OVQA), vor, um die Generalisierungsfähigkeit von VideoQA-Modellen anhand seltener und bisher nicht gesehener Antworten zu messen. Zudem führen wir einen neuartigen GNN-basierten soft verbalizer ein, um die Generalisierungsfähigkeit des Modells zu verbessern, indem Informationen aus ähnlichen Wörtern zur Vorhersage seltener und unbekannter Antworten aggregiert werden. Für die Evaluation modifizieren wir bestehende (geschlossene Vokabular-) Modelle für die offene VideoQA und verbessern deren Leistung, indem wir zusätzlich seltene und unbekannte Antworten berücksichtigen. Unsere Ablationstudien und qualitative Analysen zeigen, dass unser GNN-basierter soft verbalizer die Modellleistung weiter steigert, insbesondere bei seltenen und unbekannten Antworten. Wir hoffen, dass unser Benchmark OVQA als Leitfaden zur Bewertung der Generalisierungsfähigkeit von VideoQA-Modellen dient und zukünftige Forschung anregt. Der Quellcode ist unter https://github.com/mlvlab/OVQA verfügbar.