vor 11 Tagen

Eine Untersuchung der Kompositionaliät großer generativer Vision-Sprache-Modelle

Teli Ma, Rong Li, Junwei Liang

Abstract

Mit dem Erfolg großer Sprachmodelle (Large Language Models, LLMs) wurden zahlreiche generative visuell-sprachliche Modelle (Generative Vision-Language Models, GVLMs) durch multimodale Instruction-Tuning entwickelt. Dennoch bleibt die Leistungsfähigkeit von GVLMs bei der multimodalen kompositionellen Schlussfolgerung bisher unzureichend erforscht. In diesem Artikel untersuchen wir sowohl die verwendeten Bewertungsmetriken (z. B. VisualGPTScore) als auch die aktuellen Benchmarks zur Beurteilung der Kompositionsfähigkeit von GVLMs. Wir identifizieren einen syntaktischen Bias in den aktuellen Benchmarks, der von der sprachlichen Fähigkeit der GVLMs ausgenutzt wird. Dieser Bias macht den VisualGPTScore zu einer unzureichenden Metrik zur Bewertung von GVLMs. Um diesem Problem entgegenzuwirken, führen wir zunächst einen SyntaxBias-Score ein, der LLMs nutzt, um diesen Bias quantitativ zu erfassen und zu reduzieren. Anschließend wird eine anspruchsvolle neue Aufgabe eingeführt, um die Robustheit von GVLMs gegenüber ihrer inhärenten Neigung zur syntaktischen Korrektheit zu testen. Unter Verwendung der biasreduzierten Datensätze und der neuen Aufgabe schlagen wir einen neuartigen Benchmark vor, den sogenannten SyntActically DE-biased Benchmark (SADE). Unsere Studie liefert einen verfälschungsfreien Benchmark zur Kompositionsfähigkeit von GVLMs und unterstützt zukünftige Forschung in dieser Richtung (Code und Datensätze sind unter https://github.com/TeleeMa/SADE verfügbar).