Breaking Common Sense: WHOOPS! Ein Vision-und-Sprache-Testset aus synthetischen und kompositionellen Bildern

Seltsame, ungewöhnliche und unheimliche Bilder wecken die Neugier der Betrachter, weil sie alltägliche Vorstellungen herausfordern. Ein Beispiel hierfür ist ein Bild, das während der Fußball-Weltmeisterschaft 2022 veröffentlicht wurde und die berühmten Fußballstars Lionel Messi und Cristiano Ronaldo beim Schachspielen zeigt – eine spielerische Verletzung unserer Erwartung, dass ihr Wettstreit auf dem Fußballfeld stattfinden sollte. Menschen können solche unkonventionellen Bilder leicht erkennen und interpretieren, doch können KI-Modelle dies ebenfalls? Wir stellen WHOOPS! vor, eine neue Datensammlung und Benchmark für visuelles Alltagswissen. Die Datensammlung besteht aus gezielt alltagswissenwidrigen Bildern, die von Designern mithilfe öffentlich verfügbaren Bildgenerierungstools wie Midjourney erstellt wurden. Wir betrachten mehrere Aufgaben, die an der Datensammlung gestellt werden. Neben Aufgaben zur Bildbeschreibung, der Kreuzmodalen Zuordnung und visuellen Fragebeantwortung führen wir eine anspruchsvolle Aufgabe zur Erklärungsgenerierung ein, bei der Modelle identifizieren und erklären müssen, warum ein gegebenes Bild ungewöhnlich ist. Unsere Ergebnisse zeigen, dass moderne State-of-the-Art-Modelle wie GPT3 und BLIP2 auch heute noch hinter der menschlichen Leistung bei WHOOPS! zurückbleiben. Wir hoffen, dass unsere Datensammlung die Entwicklung von KI-Modellen mit stärkeren Fähigkeiten im Bereich visueller Alltagswissensreasoning anregen wird. Daten, Modelle und Code sind unter der Projekt-Website whoops-benchmark.github.io verfügbar.