MVBench: Eine umfassende Benchmark für die mehrmodale Videoverstehensanalyse

Mit der raschen Entwicklung von multimodalen großen Sprachmodellen (MLLMs) sind in letzter Zeit zahlreiche diagnostische Benchmarks entstanden, um die Verständnisfähigkeiten dieser Modelle zu bewerten. Dennoch konzentrieren sich die meisten Benchmarks hauptsächlich auf das räumliche Verständnis in statischen Bildaufgaben und vernachlässigen das zeitliche Verständnis in dynamischen Videoufgaben. Um dieses Problem zu mildern, stellen wir eine umfassende multimodale Videoverstehens-Benchmark vor, nämlich MVBench, die 20 anspruchsvolle Videoufgaben abdeckt, die nicht effektiv mit einem einzelnen Bild gelöst werden können. Insbesondere führen wir zunächst eine neuartige Methode zur Transformation von statischen in dynamische Aufgaben ein, um diese zeitbezogenen Aufgaben zu definieren. Durch die Umwandlung verschiedener statischer Aufgaben in dynamische ermöglichen wir die systematische Erstellung von Videoufgaben, die einen breiten Spektrum an zeitlichen Fähigkeiten erfordern, vom Wahrnehmen bis zum Kognitiven Verarbeiten. Anschließend erstellen wir unter der Leitung der Aufgabendefinition automatisch mehrfache Wahl-Fragen aus öffentlichen Videoannotierungen, um jede Aufgabe zu bewerten. Einerseits ermöglicht dieses einzigartige Paradigma den effizienten Aufbau von MVBench mit geringem manuellen Eingriff. Andererseits gewährleistet es eine faire Bewertung durch wahrheitsgemäße Videoannotierungen und vermeidet verzerrte Bewertungen der LLMs. Darüber hinaus entwickeln wir eine robuste Baseline für videobasierte MLLMs, nämlich VideoChat2, durch fortschreitendes multimodales Training mit diversen Anweisungsdaten. Die umfangreichen Ergebnisse unserer MVBench zeigen, dass existierende MLLMs im zeitlichen Verständnis weit davon entfernt sind, zufriedenstellende Leistungen zu erbringen, während unser VideoChat2 diese führenden Modelle bei über 15 % auf MVBench deutlich übertreffen kann. Alle Modelle und Daten sind unter https://github.com/OpenGVLab/Ask-Anything verfügbar.