Command Palette
Search for a command to run...
WildQA: In-the-Wild Video Question Answering
WildQA: In-the-Wild Video Question Answering
Santiago Castro Naihao Deng Pingxuan Huang Mihai Burzo Rada Mihalcea
Zusammenfassung
Bisherige Datensätze für die Videoverstehensforschung konzentrieren sich hauptsächlich auf menschliche Interaktionen und achten wenig auf „in the wild“-Szenarien, bei denen die Videos im Freien aufgenommen wurden. Wir stellen WILDQA vor, einen Datensatz für das Videoverstehen, der aus Videos im Außenbereich besteht. Neben der Aufgabe des Video-Fragenbeantwortens (Video QA) führen wir zudem eine neue Aufgabe ein: die Identifizierung visueller Beweise für eine gegebene Frage und Antwort (Video-Evidenz-Auswahl). Durch die Bewertung einer Vielzahl von Baseline-Modellen zeigen wir, dass WILDQA neuen Herausforderungen für die Forschungsgemeinschaften im Bereich Vision und Sprache entspricht. Der Datensatz ist unter https://lit.eecs.umich.edu/wildqa/ verfügbar.