HyperAIHyperAI

Command Palette

Search for a command to run...

Eine Untersuchung der Kompositionaliät großer generativer Vision-Sprache-Modelle

Teli Ma Rong Li Junwei Liang

Zusammenfassung

Mit dem Erfolg großer Sprachmodelle (Large Language Models, LLMs) wurden zahlreiche generative visuell-sprachliche Modelle (Generative Vision-Language Models, GVLMs) durch multimodale Instruction-Tuning entwickelt. Dennoch bleibt die Leistungsfähigkeit von GVLMs bei der multimodalen kompositionellen Schlussfolgerung bisher unzureichend erforscht. In diesem Artikel untersuchen wir sowohl die verwendeten Bewertungsmetriken (z. B. VisualGPTScore) als auch die aktuellen Benchmarks zur Beurteilung der Kompositionsfähigkeit von GVLMs. Wir identifizieren einen syntaktischen Bias in den aktuellen Benchmarks, der von der sprachlichen Fähigkeit der GVLMs ausgenutzt wird. Dieser Bias macht den VisualGPTScore zu einer unzureichenden Metrik zur Bewertung von GVLMs. Um diesem Problem entgegenzuwirken, führen wir zunächst einen SyntaxBias-Score ein, der LLMs nutzt, um diesen Bias quantitativ zu erfassen und zu reduzieren. Anschließend wird eine anspruchsvolle neue Aufgabe eingeführt, um die Robustheit von GVLMs gegenüber ihrer inhärenten Neigung zur syntaktischen Korrektheit zu testen. Unter Verwendung der biasreduzierten Datensätze und der neuen Aufgabe schlagen wir einen neuartigen Benchmark vor, den sogenannten SyntActically DE-biased Benchmark (SADE). Unsere Studie liefert einen verfälschungsfreien Benchmark zur Kompositionsfähigkeit von GVLMs und unterstützt zukünftige Forschung in dieser Richtung (Code und Datensätze sind unter https://github.com/TeleeMa/SADE verfügbar).


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Eine Untersuchung der Kompositionaliät großer generativer Vision-Sprache-Modelle | Paper | HyperAI