HyperAIHyperAI
vor 2 Monaten

Visuelles Alltagsverstandnis in vortrainierten unimodalen und multimodalen Modellen

Chenyu Zhang; Benjamin Van Durme; Zhuowan Li; Elias Stengel-Eskin
Visuelles Alltagsverstandnis in vortrainierten unimodalen und multimodalen Modellen
Abstract

Unser allgemeines Wissen über Objekte umfasst ihre typischen visuellen Eigenschaften; wir wissen beispielsweise, dass Bananen in der Regel gelb oder grün und nicht lila sind. Text- und Bildkorpora, die anfällig für Berichtsverzerrungen sind, stellen dieses Weltwissen in unterschiedlichem Maße korrekt dar. In dieser Arbeit untersuchen wir, in welchem Umfang unimodale (nur Sprache) und multimodale (Bild und Sprache) Modelle eine breite Palette von visuell auffälligen Attributen erfassen. Dazu erstellen wir den Visual Commonsense Tests (ViComTe)-Datensatz, der über 5000 Subjekte hinsichtlich fünf Eigenschaftstypen (Farbe, Form, Material, Größe und visuelle Ko-Präsenz) abdeckt. Wir validieren diesen Datensatz durch den Nachweis, dass unsere farbliche Grunddaten viel besser korrelieren als unbegründete rein textbasierte Daten mit den durch Paik et al. (2021) bereitgestellten Farbentscheidungen aus Crowdsourcing. Anschließend nutzen wir unseren Datensatz zur Bewertung vorab trainierter unimodaler Modelle und multimodaler Modelle. Unsere Ergebnisse deuten darauf hin, dass multimodale Modelle die Attributverteilungen besser rekonstruieren können, jedoch weiterhin anfällig für Berichtsverzerrungen sind. Darüber hinaus zeigt sich, dass die Erhöhung der Modellgröße die Leistung nicht verbessert, was darauf schließen lässt, dass der Schlüssel zum visuellen Allgemeinwissen in den Daten liegt.

Visuelles Alltagsverstandnis in vortrainierten unimodalen und multimodalen Modellen | Neueste Forschungsarbeiten | HyperAI