vor 7 Tagen

Zero-Shot Video Fragebeantwortung mittels gefrorener bidirektionaler Sprachmodelle

Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev, Cordelia Schmid

Abstract

Videofragenbeantwortung (VideoQA) ist eine komplexe Aufgabe, die vielfältige multimodale Daten für das Training erfordert. Die manuelle Annotation von Fragen und Antworten für Videos ist jedoch zeitaufwendig und behindert die Skalierbarkeit. Um dieses Problem anzugehen, betrachten neuere Ansätze den Zero-Shot-Setting, bei dem keine manuelle Annotation visueller Frage-Antwort-Paare vorgenommen wird. Insbesondere zeigt sich ein vielversprechender Ansatz, der vortrainierte, autoregressive Sprachmodelle, die auf webskalaren, textbasierten Daten basieren, für multimodale Eingaben anpasst. Im Gegensatz dazu bauen wir hier auf gefrorene bidirektionale Sprachmodelle (BiLM) auf und zeigen, dass ein solcher Ansatz eine leistungsstärkere und kostengünstigere Alternative für die Zero-Shot-VideoQA darstellt. Insbesondere (i) kombinieren wir visuelle Eingaben mit dem gefrorenen BiLM mittels leicht trainierbarer Module, (ii) trainieren diese Module mit webgekratzten multimodalen Daten und (iii) führen die Zero-Shot-VideoQA-Inferenz durch maskierte Sprachmodellierung durch, wobei der maskierte Text die Antwort auf eine gegebene Frage darstellt. Unser vorgeschlagener Ansatz, FrozenBiLM, übertrifft die derzeit beste Leistung in der Zero-Shot-VideoQA signifikant auf einer Vielzahl von Datensätzen, darunter LSMDC-FiB, iVQA, MSRVTT-QA, MSVD-QA, ActivityNet-QA, TGIF-FrameQA, How2QA und TVQA. Zudem zeigt er wettbewerbsfähige Ergebnisse auch in Few-Shot- und vollständig überwachten Szenarien. Unser Code und die Modelle sind öffentlich unter https://github.com/antoyang/FrozenBiLM verfügbar.