HyperAIHyperAI

Command Palette

Search for a command to run...

Zero-Shot Video Fragebeantwortung mittels gefrorener bidirektionaler Sprachmodelle

Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid

Zusammenfassung

Videofragenbeantwortung (VideoQA) ist eine komplexe Aufgabe, die vielfältige multimodale Daten für das Training erfordert. Die manuelle Annotation von Fragen und Antworten für Videos ist jedoch zeitaufwendig und behindert die Skalierbarkeit. Um dieses Problem anzugehen, betrachten neuere Ansätze den Zero-Shot-Setting, bei dem keine manuelle Annotation visueller Frage-Antwort-Paare vorgenommen wird. Insbesondere zeigt sich ein vielversprechender Ansatz, der vortrainierte, autoregressive Sprachmodelle, die auf webskalaren, textbasierten Daten basieren, für multimodale Eingaben anpasst. Im Gegensatz dazu bauen wir hier auf gefrorene bidirektionale Sprachmodelle (BiLM) auf und zeigen, dass ein solcher Ansatz eine leistungsstärkere und kostengünstigere Alternative für die Zero-Shot-VideoQA darstellt. Insbesondere (i) kombinieren wir visuelle Eingaben mit dem gefrorenen BiLM mittels leicht trainierbarer Module, (ii) trainieren diese Module mit webgekratzten multimodalen Daten und (iii) führen die Zero-Shot-VideoQA-Inferenz durch maskierte Sprachmodellierung durch, wobei der maskierte Text die Antwort auf eine gegebene Frage darstellt. Unser vorgeschlagener Ansatz, FrozenBiLM, übertrifft die derzeit beste Leistung in der Zero-Shot-VideoQA signifikant auf einer Vielzahl von Datensätzen, darunter LSMDC-FiB, iVQA, MSRVTT-QA, MSVD-QA, ActivityNet-QA, TGIF-FrameQA, How2QA und TVQA. Zudem zeigt er wettbewerbsfähige Ergebnisse auch in Few-Shot- und vollständig überwachten Szenarien. Unser Code und die Modelle sind öffentlich unter https://github.com/antoyang/FrozenBiLM verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp