Neubewertung der Rolle von Sprachprioren in Vision-Sprache-Modellen

Vision-Language-Modelle (VLMs) sind besonders wirksam, da sie auf eine Vielzahl von Aufgaben im Bereich der visuellen Verständnisaufgaben in zero-shot-Weise angewendet werden können, ohne dass eine Nachjustierung (Fine-Tuning) erforderlich ist. Wir untersuchen generative VLMs, die für die Generierung des nächsten Wortes angesichts eines Bildes trainiert wurden. Wir evaluieren ihre zero-shot-Leistung anhand der illustrativen Aufgabe der Bild-Text-Recherche auf acht gängigen Vision-Language-Benchmarks. Unser erster Befund ist, dass diese Modelle für diskriminative Aufgaben – wie beispielsweise die Bild-Text-Recherche – einfach umfunktioniert werden können, indem man lediglich die Übereinstimmungsscore berechnet, mit der ein bestimmter Textstring unter Angabe eines Bildes generiert wird. Wir bezeichnen diesen probabilistischen Score als Visual Generative Pre-Training Score (VisualGPTScore). Während der VisualGPTScore auf einigen Retrieval-Benchmarks nahezu perfekte Genauigkeit erzielt, zeigt er auf anderen nur eine schlechte Leistung. Wir analysieren dieses Verhalten aus einer probabilistischen Perspektive und weisen darauf hin, dass bestimmte Benchmarks unbeabsichtigt unnatürliche Sprachverteilungen erfassen, indem sie adversarische, aber unwahrscheinliche Bildunterschriften erzeugen. Tatsächlich zeigen wir, dass sogar ein „blinder“ Sprachmodell, das jegliche Bildinformation ignoriert, gelegentlich die Leistung aller vorherigen Ansätze übertreffen kann – ein Phänomen, das der Gemeinschaft der visuellen Fragebeantwortung (VQA) vor vielen Jahren ähnliche Herausforderungen bereitet hat. Wir leiten eine probabilistische Nachverarbeitungsmethode ab, die den Grad der sprachlichen Bias in generativen VLMs zur Testzeit kontrolliert, ohne dass eine erneute Ausbildung oder Nachjustierung des Modells erforderlich ist. Wir zeigen, dass der VisualGPTScore, wenn angemessen entbiastet, eine starke zero-shot-Basislinie für das visuelle Sprachverständnis darstellt und oft Zustand-des-Kunst-Genauigkeit erreicht.