HyperAIHyperAI

Command Palette

Search for a command to run...

Neubewertung des „Video“ im Bereich der Video-Sprache-Verständnis

Shyamal Buch Cristóbal Eyzaguirre Adrien Gaidon Jiajun Wu Li Fei-Fei Juan Carlos Niebles

Zusammenfassung

Was macht eine Videotaufgabe einzigartig für Videos, jenseits dessen, was aus einem einzelnen Bild erschlossen werden kann? Ausgehend von den jüngsten Fortschritten in selbstüberwachten Bild-Sprache-Modellen untersuchen wir diese Frage im Kontext von Video- und Sprachaufgaben erneut. Wir stellen den atemporalen Probes (ATP) vor, ein neues Modell zur Video-Sprache-Analyse, das eine strengere obere Schranke für die Baseline-Genauigkeit multimodaler Modelle liefert, die durch verständnisbasierte Bild-Ebene begrenzt sind. Durch die Anwendung dieses Modells auf etablierte diskriminative Video-Sprache-Aufgaben – wie Video-Fragenbeantwortung und Text-zu-Video-Recherche – charakterisieren wir die Grenzen und das Potenzial aktueller Video-Sprache-Benchmarks. Wir stellen fest, dass das Verständnis der Ereignistemporalität oft nicht erforderlich ist, um starke oder sogar state-of-the-art-Leistungen zu erzielen – selbst im Vergleich zu jüngsten großen Video-Sprache-Modellen und in Kontexten, die tiefgreifendes Video-Ebene-Verständnis testen sollen. Zudem zeigen wir, wie ATP sowohl die Gestaltung von Video-Sprache-Datensätzen als auch von Modellen verbessern kann. Wir beschreiben eine Technik, mit der ATP genutzt werden kann, um Datensubsets mit einer höheren Konzentration an temporal anspruchsvollen Daten besser zu entkoppeln, was die Effektivität der Benchmarking-Evaluation für kausales und temporales Verständnis erhöht. Darüber hinaus zeigen wir, dass die effektive Integration von ATP in vollständige Video-Ebene-Temporalmodelle sowohl die Effizienz als auch die state-of-the-art-Genauigkeit steigern kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Neubewertung des „Video“ im Bereich der Video-Sprache-Verständnis | Paper | HyperAI