Command Palette
Search for a command to run...
GroundingME: Aufdeckung der visuellen Grundierungslücke in MLLMs durch eine mehrdimensionale Bewertung
GroundingME: Aufdeckung der visuellen Grundierungslücke in MLLMs durch eine mehrdimensionale Bewertung
Abstract
Visual Grounding, die Lokalisierung von Objekten anhand natürlicher Sprachbeschreibungen, stellt eine entscheidende Brücke zwischen Sprach- und Visueller Wahrnehmung dar. Obwohl multimodale große Sprachmodelle (MLLMs) beeindruckende Ergebnisse auf bestehenden Benchmarks erzielen, bleibt eine grundlegende Frage offen: Können MLLMs Sprache tatsächlich visuell verankern, mit der Feinabstimmung menschlicher Wahrnehmung, oder handelt es sich lediglich um Mustererkennung auf vereinfachten Datensätzen? Aktuelle Benchmarks erfassen die Komplexität der realen Welt nicht, in der Menschen mühelos mit mehrdeutigen Referenzen umgehen und erkennen, wann eine Verankerung unmöglich ist. Um die wahren Fähigkeiten von MLLMs rigoros zu bewerten, führen wir GroundingME ein – ein Benchmark, der Modelle systematisch an vier kritischen Dimensionen herausfordert: (1) Differenzierbarkeit, die Unterscheidung von äußerst ähnlichen Objekten, (2) Raumliche Beziehungen, das Verständnis komplexer relationaler Beschreibungen, (3) Beschränktheit, die Behandlung von Verdeckungen oder winzigen Objekten, und (4) Ablehnung, die Erkennung von nicht verankerbaren Anfragen. Durch sorgfältige Datensammlung, die automatisierte Generierung mit menschlicher Validierung kombiniert, erstellen wir 1.005 anspruchsvolle Beispiele, die der Komplexität der realen Welt entsprechen. Die Evaluation von 25 state-of-the-art MLLMs offenbart eine tiefgreifende Fähigkeitslücke: das beste Modell erreicht lediglich 45,1 % Genauigkeit, während die meisten bei Ablehnungsaufgaben 0 % erreichen und statt der Anerkennung von Unmöglichkeit objektiv fehlerhafte Objekte hervorbringen – was gravierende Sicherheitsbedenken für die Anwendung aufwirft. Wir untersuchen zwei Strategien zur Verbesserung: (1) Testzeit-Skalierung wählt durch die Analyse der Denktrajektorie die optimale Antwort aus, wodurch die Leistung bei komplexer Verankerung um bis zu 2,9 % steigt, und (2) Data-Mixture-Training lehrt Modelle, nicht verankerbare Anfragen zu erkennen, was die Genauigkeit bei Ablehnungsaufgaben von 0 % auf 27,9 % steigert. GroundingME fungiert somit sowohl als diagnostisches Werkzeug zur Aufdeckung der aktuellen Grenzen von MLLMs als auch als Wegweiser hin zu visueller Verankerung auf menschlichem Niveau.