vor 8 Monaten

Zusammenfassung

Wir schlagen VALSE (Vision And Language Structured Evaluation) vor, einen neuen Benchmark, der darauf ausgelegt ist, allgemeine vortrainierte Vision und Sprache (V&L) Modelle in Bezug auf ihre Fähigkeiten zur visuellen und sprachlichen Anbindung an spezifische sprachliche Phänomene zu testen. VALSE bietet eine Suite von sechs Tests, die verschiedene sprachliche Konstrukte abdecken. Die Lösung dieser Tests erfordert von den Modellen, sprachliche Phänomene in der visuellen Modalität zu verankern, was feinere Bewertungen ermöglicht als bisher möglich. Wir erstellen VALSE unter Verwendung von Methoden, die die Erstellung gültiger Fehlinformationen unterstützen, und berichten über die Ergebnisse der Auswertung von fünf weit verbreiteten V&L Modellen. Unsere Experimente deuten darauf hin, dass aktuelle Modelle erhebliche Schwierigkeiten haben, die meisten Phänomene anzugehen. Daher erwarten wir, dass VALSE ein wichtiger Benchmark sein wird, um zukünftige Fortschritte vortrainierter V&L Modelle aus sprachlicher Sicht zu messen und die kanonischen taskorientierten V&L Bewertungen zu ergänzen.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Benchmarks

Visuelle Fragebeantwortung

Dokumentenverstehen

KI-Infrastruktur

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Letitia Parcalabescu; Michele Cafagna; Lilitta Muradjan; Anette Frank; Iacer Calixto; Albert Gatt

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Benchmarks

Visuelle Fragebeantwortung

Dokumentenverstehen

KI-Infrastruktur

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Letitia Parcalabescu; Michele Cafagna; Lilitta Muradjan; Anette Frank; Iacer Calixto; Albert Gatt

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

VALSE: Ein taskspezifisch unabhängiger Benchmark für Vision- und Sprachmodelle, der sich auf linguistische Phänomene konzentriert

Letitia Parcalabescu; Michele Cafagna; Lilitta Muradjan; Anette Frank; Iacer Calixto; Albert Gatt

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

VALSE: Ein taskspezifisch unabhängiger Benchmark für Vision- und Sprachmodelle, der sich auf linguistische Phänomene konzentriert

Letitia Parcalabescu; Michele Cafagna; Lilitta Muradjan; Anette Frank; Iacer Calixto; Albert Gatt

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

VALSE: Ein taskspezifisch unabhängiger Benchmark für Vision- und Sprachmodelle, der sich auf linguistische Phänomene konzentriert

Letitia Parcalabescu; Michele Cafagna; Lilitta Muradjan; Anette Frank; Iacer Calixto; Albert Gatt

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters