vor 7 Tagen

Neubewertung des „Video“ im Bereich der Video-Sprache-Verständnis

Shyamal Buch, Cristóbal Eyzaguirre, Adrien Gaidon, Jiajun Wu, Li Fei-Fei, Juan Carlos Niebles

Abstract

Was macht eine Videotaufgabe einzigartig für Videos, jenseits dessen, was aus einem einzelnen Bild erschlossen werden kann? Ausgehend von den jüngsten Fortschritten in selbstüberwachten Bild-Sprache-Modellen untersuchen wir diese Frage im Kontext von Video- und Sprachaufgaben erneut. Wir stellen den atemporalen Probes (ATP) vor, ein neues Modell zur Video-Sprache-Analyse, das eine strengere obere Schranke für die Baseline-Genauigkeit multimodaler Modelle liefert, die durch verständnisbasierte Bild-Ebene begrenzt sind. Durch die Anwendung dieses Modells auf etablierte diskriminative Video-Sprache-Aufgaben – wie Video-Fragenbeantwortung und Text-zu-Video-Recherche – charakterisieren wir die Grenzen und das Potenzial aktueller Video-Sprache-Benchmarks. Wir stellen fest, dass das Verständnis der Ereignistemporalität oft nicht erforderlich ist, um starke oder sogar state-of-the-art-Leistungen zu erzielen – selbst im Vergleich zu jüngsten großen Video-Sprache-Modellen und in Kontexten, die tiefgreifendes Video-Ebene-Verständnis testen sollen. Zudem zeigen wir, wie ATP sowohl die Gestaltung von Video-Sprache-Datensätzen als auch von Modellen verbessern kann. Wir beschreiben eine Technik, mit der ATP genutzt werden kann, um Datensubsets mit einer höheren Konzentration an temporal anspruchsvollen Daten besser zu entkoppeln, was die Effektivität der Benchmarking-Evaluation für kausales und temporales Verständnis erhöht. Darüber hinaus zeigen wir, dass die effektive Integration von ATP in vollständige Video-Ebene-Temporalmodelle sowohl die Effizienz als auch die state-of-the-art-Genauigkeit steigern kann.