VALSE: Ein taskspezifisch unabhängiger Benchmark für Vision- und Sprachmodelle, der sich auf linguistische Phänomene konzentriert

Wir schlagen VALSE (Vision And Language Structured Evaluation) vor, einen neuen Benchmark, der darauf ausgelegt ist, allgemeine vortrainierte Vision und Sprache (V&L) Modelle in Bezug auf ihre Fähigkeiten zur visuellen und sprachlichen Anbindung an spezifische sprachliche Phänomene zu testen. VALSE bietet eine Suite von sechs Tests, die verschiedene sprachliche Konstrukte abdecken. Die Lösung dieser Tests erfordert von den Modellen, sprachliche Phänomene in der visuellen Modalität zu verankern, was feinere Bewertungen ermöglicht als bisher möglich. Wir erstellen VALSE unter Verwendung von Methoden, die die Erstellung gültiger Fehlinformationen unterstützen, und berichten über die Ergebnisse der Auswertung von fünf weit verbreiteten V&L Modellen. Unsere Experimente deuten darauf hin, dass aktuelle Modelle erhebliche Schwierigkeiten haben, die meisten Phänomene anzugehen. Daher erwarten wir, dass VALSE ein wichtiger Benchmark sein wird, um zukünftige Fortschritte vortrainierter V&L Modelle aus sprachlicher Sicht zu messen und die kanonischen taskorientierten V&L Bewertungen zu ergänzen.