HyperAIHyperAI

Command Palette

Search for a command to run...

Just Ask: Lernen, Fragen aus Millionen von narrativen Videos zu beantworten

Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid

Zusammenfassung

Neuere Ansätze für die visuelle Fragebeantwortung (Visual Question Answering, VideoQA) beruhen auf großskaligen annotierten Datensätzen. Die manuelle Annotation von Fragen und Antworten für Videos ist jedoch zeitaufwendig, kostspielig und behindert die Skalierbarkeit. In dieser Arbeit schlagen wir vor, die manuelle Annotation zu vermeiden und einen großskaligen Trainingsdatensatz für die Videofragebeantwortung durch Nutzung automatischer, quermodaler Aufsicht zu generieren. Dazu nutzen wir einen Fragentgenerierungs-Transformer, der auf Textdaten trainiert wurde, um aus transkribierten Videonarrationen Frage-Antwort-Paare zu erzeugen. Gegeben narratierte Videos generieren wir automatisch den HowToVQA69M-Datensatz mit 69 Millionen Video-Frage-Antwort-Tripeln. Um die offene Vokabulargröße unterschiedlicher Antworten in diesem Datensatz zu bewältigen, schlagen wir ein Trainingsverfahren vor, das auf einem kontrastiven Verlust zwischen einem multimodalen Transformer aus Video und Frage sowie einem Antwort-Transformer basiert. Wir führen die zero-shot VideoQA-Aufgabe ein und zeigen hervorragende Ergebnisse, insbesondere für seltene Antworten. Zudem zeigen wir, dass unsere Methode auf MSRVTT-QA, MSVD-QA, ActivityNet-QA und How2QA signifikant die derzeitigen State-of-the-Art-Methoden übertrifft. Schließlich stellen wir iVQA vor, einen neuen VideoQA-Datensatz mit reduzierten Sprachbiassen und hochwertigen, redundanten manuellen Annotationen, um eine detaillierte Evaluierung zu ermöglichen. Unsere Code-Implementierung, Datensätze und trainierten Modelle sind unter https://antoyang.github.io/just-ask.html verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Just Ask: Lernen, Fragen aus Millionen von narrativen Videos zu beantworten | Paper | HyperAI