WinoGAViL: Gamifizierter Assoziationsbenchmark zur Herausforderung von Modellen für Vision und Sprache

Während visuelle und sprachliche Modelle bei Aufgaben wie der visuellen Fragebeantwortung gut abschneiden, haben sie Schwierigkeiten mit grundlegenden menschlichen Alltagsvernunftfähigkeiten. In dieser Arbeit stellen wir WinoGAViL vor: ein Online-Spiel zur Assoziation von Vision und Sprache (z.B. zwischen Werwölfen und einem Vollmond), das als dynamisches Evaluationsmaßstab verwendet wird. Inspiriert von dem beliebten Kartenspiel Codenames gibt ein Spymaster einen textuellen Hinweis, der mehrere visuelle Kandidaten betrifft, und ein anderer Spieler versucht, diese zu identifizieren. Menschliche Spieler werden belohnt, wenn sie Assoziationen erstellen, die für ein rivalisierendes KI-Modell herausfordernd sind, aber immer noch von anderen menschlichen Spielern gelöst werden können. Wir nutzen das Spiel, um 3.500 Instanzen zu sammeln und feststellen, dass diese für Menschen intuitiv sind (mit einem Jaccard-Index von >90%), aber für state-of-the-art-KI-Modelle herausfordernd, wobei das beste Modell (ViLT) eine Trefferquote von 52% erreicht, hauptsächlich dann erfolgreich, wenn der Hinweis optisch auffällig ist. Unsere Analyse sowie das Feedback der Spieler zeigt, dass die gesammelten Assoziationen verschiedene Vernunftfähigkeiten erfordern, darunter allgemeines Wissen, Alltagsverstand (Common Sense), Abstraktion und mehr. Wir veröffentlichen den Datensatz, den Code und das interaktive Spiel, um zukünftige Datensammlungen zu ermöglichen, die zum Entwickeln von Modellen mit besseren Assoziationsfähigkeiten genutzt werden können.