HyperAIHyperAI
vor 11 Tagen

Winoground: Untersuchung der visuo-linguistischen Kompositionalität bei Vision- und Sprachmodellen

Tristan Thrush, Ryan Jiang, Max Bartolo, Amanpreet Singh, Adina Williams, Douwe Kiela, Candace Ross
Winoground: Untersuchung der visuo-linguistischen Kompositionalität bei Vision- und Sprachmodellen
Abstract

Wir stellen eine neue Aufgabe und ein Datenset vor, um die Fähigkeit von Vision- und Sprachmodellen zur visuo-linguistischen kompositionellen Schlussfolgerung zu evaluieren, die wir Winoground nennen. Gegeben sind zwei Bilder und zwei Beschreibungen (Captions), und die Aufgabe besteht darin, diese korrekt zu verknüpfen – entscheidend hierbei ist jedoch, dass beide Beschreibungen exakt dieselben Wörter enthalten, lediglich in anderer Reihenfolge. Das Datenset wurde sorgfältig von Experten-Annotatoren handverlesen und mit einer Vielzahl fein abgestufter Tags versehen, um die Analyse der Modellleistung zu unterstützen. Wir untersuchen eine breite Palette modernster Vision- und Sprachmodelle und stellen überraschenderweise fest, dass keines von ihnen signifikant besser abschneidet als zufällige Auswahl. Offensichtlich verfügen diese Modelle nicht über die Kompetenz in visuo-linguistischer kompositioneller Schlussfolgerung, die wir uns erhofft hatten. Wir führen eine umfassende Analyse durch, um Erkenntnisse darüber zu gewinnen, wie zukünftige Forschungsarbeiten diese Schwächen der Modelle möglicherweise überwinden könnten. Unser Ziel ist es, Winoground als nützliches Evaluationsset zu etablieren, das zur Weiterentwicklung des Standes der Technik und zur Förderung weiterer Fortschritte in diesem Bereich beiträgt. Das Datenset ist unter https://huggingface.co/datasets/facebook/winoground verfügbar.

Winoground: Untersuchung der visuo-linguistischen Kompositionalität bei Vision- und Sprachmodellen | Neueste Forschungsarbeiten | HyperAI