vor 7 Tagen

Just Ask: Lernen, Fragen aus Millionen von narrativen Videos zu beantworten

Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev, Cordelia Schmid

Abstract

Neuere Ansätze für die visuelle Fragebeantwortung (Visual Question Answering, VideoQA) beruhen auf großskaligen annotierten Datensätzen. Die manuelle Annotation von Fragen und Antworten für Videos ist jedoch zeitaufwendig, kostspielig und behindert die Skalierbarkeit. In dieser Arbeit schlagen wir vor, die manuelle Annotation zu vermeiden und einen großskaligen Trainingsdatensatz für die Videofragebeantwortung durch Nutzung automatischer, quermodaler Aufsicht zu generieren. Dazu nutzen wir einen Fragentgenerierungs-Transformer, der auf Textdaten trainiert wurde, um aus transkribierten Videonarrationen Frage-Antwort-Paare zu erzeugen. Gegeben narratierte Videos generieren wir automatisch den HowToVQA69M-Datensatz mit 69 Millionen Video-Frage-Antwort-Tripeln. Um die offene Vokabulargröße unterschiedlicher Antworten in diesem Datensatz zu bewältigen, schlagen wir ein Trainingsverfahren vor, das auf einem kontrastiven Verlust zwischen einem multimodalen Transformer aus Video und Frage sowie einem Antwort-Transformer basiert. Wir führen die zero-shot VideoQA-Aufgabe ein und zeigen hervorragende Ergebnisse, insbesondere für seltene Antworten. Zudem zeigen wir, dass unsere Methode auf MSRVTT-QA, MSVD-QA, ActivityNet-QA und How2QA signifikant die derzeitigen State-of-the-Art-Methoden übertrifft. Schließlich stellen wir iVQA vor, einen neuen VideoQA-Datensatz mit reduzierten Sprachbiassen und hochwertigen, redundanten manuellen Annotationen, um eine detaillierte Evaluierung zu ermöglichen. Unsere Code-Implementierung, Datensätze und trainierten Modelle sind unter https://antoyang.github.io/just-ask.html verfügbar.