ArtQuest: Die Bekämpfung versteckter Sprachverzerrungen in ArtVQA

Die Aufgabe des Visual Question Answering (VQA) wurde umfassend an allgemeinen, realen Bildern aus der Alltagswelt untersucht. Der Transfer von Erkenntnissen aus dem allgemeinen Domänen-VQA in den Kunstbereich (ArtVQA) ist jedoch nicht trivial, da Modelle hier nicht nur abstrakte Konzepte, Details von Pinselstrichen und Stile von Gemälden in den visuellen Daten erkennen müssen, sondern auch Hintergrundwissen über Kunst besitzen sollten. Dies wird durch die fehlende Verfügbarkeit hochwertiger Datensätze zusätzlich erschwert. In dieser Arbeit beleuchten wir verborgene sprachliche Bias in der AQUA-Datensammlung, dem einzigen öffentlich verfügbaren Benchmark-Datensatz für ArtVQA. Als Folge kann die Mehrheit der Fragen ohne Konsultation der visuellen Informationen beantwortet werden, wodurch der „V“ in ArtVQA weitgehend bedeutungslos wird. Um diesem Problem entgegenzuwirken, erstellen wir eine einfache, jedoch praktikable Datensammlung namens ArtQuest, die strukturierte Informationen aus der SemArt-Sammlung nutzt. Unser Datensatz sowie die Pipeline zur Reproduktion unserer Ergebnisse sind öffentlich unter https://github.com/bletib/artquest verfügbar.