WildQA: In-the-Wild Video Question Answering

Bisherige Datensätze für die Videoverstehensforschung konzentrieren sich hauptsächlich auf menschliche Interaktionen und achten wenig auf „in the wild“-Szenarien, bei denen die Videos im Freien aufgenommen wurden. Wir stellen WILDQA vor, einen Datensatz für das Videoverstehen, der aus Videos im Außenbereich besteht. Neben der Aufgabe des Video-Fragenbeantwortens (Video QA) führen wir zudem eine neue Aufgabe ein: die Identifizierung visueller Beweise für eine gegebene Frage und Antwort (Video-Evidenz-Auswahl). Durch die Bewertung einer Vielzahl von Baseline-Modellen zeigen wir, dass WILDQA neuen Herausforderungen für die Forschungsgemeinschaften im Bereich Vision und Sprache entspricht. Der Datensatz ist unter https://lit.eecs.umich.edu/wildqa/ verfügbar.