ShotBench: Expertenwissen im Bereich Filmgestaltung in Vision-Sprach-Modellen

Die Kameraführung, die grundlegende visuelle Sprache des Films, ist entscheidend für die Übermittlung von Narration, Emotion und ästhetischer Qualität. Obwohl aktuelle Vision-Sprachmodelle (VSMs) eine starke allgemeine visuelle Verständnisfähigkeit zeigen, bleibt ihre Kompetenz im Verstehen der feinen filmischen Grammatik, die in einzelnen Schnitten eingebettet ist, weitgehend unerforscht und ohne robuste Bewertung. Diese kritische Lücke begrenzt sowohl das feingranulare visuelle Verständnis als auch die Präzision der durch KI unterstützten Videogenerierung. Um dies zu beheben, stellen wir ShotBench vor, einen umfassenden Benchmark, der speziell für das Verständnis der filmischen Sprache entwickelt wurde. Er enthält über 3.500 von Experten annotierte Frage-Antwort-Paare aus Bildern und Videoausschnitten, sorgfältig zusammengestellt aus mehr als 200 renommierten (vor allem Oscar-nominierten) Filmen und umfasst acht zentrale Dimensionen der Kameraführung. Unsere Evaluation von 24 führenden VSMs auf ShotBench zeigt erhebliche Einschränkungen auf: selbst das bestperformende Modell erreicht eine durchschnittliche Genauigkeit von weniger als 60 % und hat insbesondere Schwierigkeiten mit feingranularen visuellen Hinweisen und komplexer räumlicher Schlussfolgerung. Um Fortschritte in diesem Bereich zu beschleunigen, erstellen wir ShotQA, einen groß angelegten multimodalen Datensatz mit etwa 70.000 filmischen Frage-Antwort-Paaren. Unter Nutzung von ShotQA entwickeln wir ShotVL durch überwachtes Feinjustieren und Gruppenrelative Politikoptimierung. ShotVL übertrifft alle existierenden Open-Source- und proprietären Modelle auf ShotBench erheblich und setzt neue Standards (state-of-the-art) in der Leistungsfähigkeit. Wir veröffentlichen unsere Modelle, Daten und Code unter einer Open-Source-Lizenz, um rasche Fortschritte in diesem wichtigen Bereich der KI-gestützten filmischen Verständnis- und Generierungsfähigkeit zu fördern.