HyperAIHyperAI

Command Palette

Search for a command to run...

Wahrnehmungstest: Ein diagnostischer Benchmark für multimodale Videomodelle

Zusammenfassung

Wir stellen einen neuartigen multimodalen Video-Benchmark – den Perception Test – vor, um die Wahrnehmungs- und Schlussfolgerungsfähigkeiten vortrainierter multimodaler Modelle (z. B. Flamingo, SeViLA oder GPT-4) zu bewerten. Im Gegensatz zu bestehenden Benchmarks, die sich auf rechnerische Aufgaben (z. B. Klassifikation, Detektion oder Verfolgung) konzentrieren, fokussiert der Perception Test auf Wahrnehmungsfähigkeiten (Gedächtnis, Abstraktion, Physik, Semantik) und Arten des Schließens (beschreibend, erklärend, vorhersagend, gegenfaktisch) über die Modalitäten Video, Audio und Text, um ein umfassendes und effizientes Bewertungsinstrument bereitzustellen. Der Benchmark testet die Transferfähigkeit vortrainierter Modelle in einem Zero-shot / Few-shot oder begrenzten Fine-Tuning-Regime. Hierzu stellt der Perception Test 11,6 k reale Weltvideos mit durchschnittlich 23 Sekunden Länge bereit, die aufgrund ihrer wahrnehmungsreichen Situationen ausgewählt wurden und von etwa 100 Teilnehmern weltweit aufgenommen wurden. Die Videos sind dicht mit sechs Arten von Etiketten annotiert (Mehrfachauswahl- und fundierte Video-Fragen-Antworten, Objekt- und Punktverfolgungen, zeitliche Aktions- und Klangssegmente), was sowohl sprachbasierte als auch sprachunabhängige Evaluierungen ermöglicht. Die Fine-Tuning- und Validierungsteile des Benchmarks sind öffentlich verfügbar (CC-BY-Lizenz), zusätzlich zu einem Challenge-Server mit einem ausgesonderten Test-Teil. Menschliche Baseline-Ergebnisse zeigen gegenüber aktuellen State-of-the-Art-Video-QA-Modellen eine erhebliche Leistungslücke (91,4 % gegenüber 46,2 %), was darauf hindeutet, dass erhebliches Verbesserungspotenzial im Bereich der multimodalen Video-Verständnis besteht.Datensatz, Baseline-Code und Challenge-Server sind unter https://github.com/deepmind/perception_test verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp