HyperAIHyperAI

Command Palette

Search for a command to run...

VALSE: Ein taskspezifisch unabhängiger Benchmark für Vision- und Sprachmodelle, der sich auf linguistische Phänomene konzentriert

Letitia Parcalabescu; Michele Cafagna; Lilitta Muradjan; Anette Frank; Iacer Calixto; Albert Gatt

Zusammenfassung

Wir schlagen VALSE (Vision And Language Structured Evaluation) vor, einen neuen Benchmark, der darauf ausgelegt ist, allgemeine vortrainierte Vision und Sprache (V&L) Modelle in Bezug auf ihre Fähigkeiten zur visuellen und sprachlichen Anbindung an spezifische sprachliche Phänomene zu testen. VALSE bietet eine Suite von sechs Tests, die verschiedene sprachliche Konstrukte abdecken. Die Lösung dieser Tests erfordert von den Modellen, sprachliche Phänomene in der visuellen Modalität zu verankern, was feinere Bewertungen ermöglicht als bisher möglich. Wir erstellen VALSE unter Verwendung von Methoden, die die Erstellung gültiger Fehlinformationen unterstützen, und berichten über die Ergebnisse der Auswertung von fünf weit verbreiteten V&L Modellen. Unsere Experimente deuten darauf hin, dass aktuelle Modelle erhebliche Schwierigkeiten haben, die meisten Phänomene anzugehen. Daher erwarten wir, dass VALSE ein wichtiger Benchmark sein wird, um zukünftige Fortschritte vortrainierter V&L Modelle aus sprachlicher Sicht zu messen und die kanonischen taskorientierten V&L Bewertungen zu ergänzen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp