Erweitern Sie die Perspektive: Geo-diverse visuelle Gemeinsinnsschließung

Gemeinsinn wird als Wissen definiert, das von allen geteilt wird. Allerdings sind bestimmte Arten von Gemeinsinn-Wissen mit Kultur und geografischen Regionen verknüpft und werden lediglich lokal geteilt. Beispielsweise unterscheiden sich die Szenarien von Hochzeitszeremonien regional aufgrund unterschiedlicher Bräuche, die durch historische und religiöse Faktoren beeinflusst sind. Solche regionalen Besonderheiten werden in vorherigen Arbeiten jedoch im Allgemeinen außer Acht gelassen. In diesem Paper stellen wir eine geo-diverse Visual Commonsense Reasoning-Datenbank (GD-VCR) vor, um die Fähigkeit von Vision-und-Sprache-Modellen zur Verständnis kultureller und geografisch spezifischer Gemeinsinn-Wissen zu testen. Insbesondere untersuchen wir zwei state-of-the-art Vision-und-Sprache-Modelle, VisualBERT und ViLBERT, die auf VCR, einem Standard-Multimodal-Gemeinsinn-Benchmark mit Bildern hauptsächlich aus westlichen Regionen, trainiert wurden. Anschließend evaluieren wir, wie gut die trainierten Modelle bei der Beantwortung von Fragen in GD-VCR generalisieren. Wir stellen fest, dass die Leistung beider Modelle für nicht-westliche Regionen – einschließlich Ostasien, Südasien und Afrika – signifikant niedriger ist als für westliche Regionen. Wir analysieren die Ursachen dieser Leistungsunterschiede und stellen fest, dass die Leistungslücke bei Fragenpaaren besonders groß ist, die: 1) kulturspezifische Szenarien betreffen, beispielsweise Hochzeiten, religiöse Aktivitäten und Feste; 2) hochwertiges, geo-diverses Gemeinsinn-Verständnis erfordern, anstatt lediglich niedrigstufige Wahrnehmung und Erkennung. Die Datensammlung und der Code sind unter https://github.com/WadeYin9712/GD-VCR veröffentlicht.