Wahrnehmungstest: Ein diagnostischer Benchmark für multimodale Videomodelle

Wir stellen einen neuartigen multimodalen Video-Benchmark – den Perception Test – vor, um die Wahrnehmungs- und Schlussfolgerungsfähigkeiten vortrainierter multimodaler Modelle (z. B. Flamingo, SeViLA oder GPT-4) zu bewerten. Im Gegensatz zu bestehenden Benchmarks, die sich auf rechnerische Aufgaben (z. B. Klassifikation, Detektion oder Verfolgung) konzentrieren, fokussiert der Perception Test auf Wahrnehmungsfähigkeiten (Gedächtnis, Abstraktion, Physik, Semantik) und Arten des Schließens (beschreibend, erklärend, vorhersagend, gegenfaktisch) über die Modalitäten Video, Audio und Text, um ein umfassendes und effizientes Bewertungsinstrument bereitzustellen. Der Benchmark testet die Transferfähigkeit vortrainierter Modelle in einem Zero-shot / Few-shot oder begrenzten Fine-Tuning-Regime. Hierzu stellt der Perception Test 11,6 k reale Weltvideos mit durchschnittlich 23 Sekunden Länge bereit, die aufgrund ihrer wahrnehmungsreichen Situationen ausgewählt wurden und von etwa 100 Teilnehmern weltweit aufgenommen wurden. Die Videos sind dicht mit sechs Arten von Etiketten annotiert (Mehrfachauswahl- und fundierte Video-Fragen-Antworten, Objekt- und Punktverfolgungen, zeitliche Aktions- und Klangssegmente), was sowohl sprachbasierte als auch sprachunabhängige Evaluierungen ermöglicht. Die Fine-Tuning- und Validierungsteile des Benchmarks sind öffentlich verfügbar (CC-BY-Lizenz), zusätzlich zu einem Challenge-Server mit einem ausgesonderten Test-Teil. Menschliche Baseline-Ergebnisse zeigen gegenüber aktuellen State-of-the-Art-Video-QA-Modellen eine erhebliche Leistungslücke (91,4 % gegenüber 46,2 %), was darauf hindeutet, dass erhebliches Verbesserungspotenzial im Bereich der multimodalen Video-Verständnis besteht.Datensatz, Baseline-Code und Challenge-Server sind unter https://github.com/deepmind/perception_test verfügbar.