HyperAIHyperAI

Command Palette

Search for a command to run...

Erweitern Sie die Perspektive: Geo-diverse visuelle Gemeinsinnsschließung

Da Yin Liunian Harold Li Ziniu Hu Nanyun Peng Kai-Wei Chang

Zusammenfassung

Gemeinsinn wird als Wissen definiert, das von allen geteilt wird. Allerdings sind bestimmte Arten von Gemeinsinn-Wissen mit Kultur und geografischen Regionen verknüpft und werden lediglich lokal geteilt. Beispielsweise unterscheiden sich die Szenarien von Hochzeitszeremonien regional aufgrund unterschiedlicher Bräuche, die durch historische und religiöse Faktoren beeinflusst sind. Solche regionalen Besonderheiten werden in vorherigen Arbeiten jedoch im Allgemeinen außer Acht gelassen. In diesem Paper stellen wir eine geo-diverse Visual Commonsense Reasoning-Datenbank (GD-VCR) vor, um die Fähigkeit von Vision-und-Sprache-Modellen zur Verständnis kultureller und geografisch spezifischer Gemeinsinn-Wissen zu testen. Insbesondere untersuchen wir zwei state-of-the-art Vision-und-Sprache-Modelle, VisualBERT und ViLBERT, die auf VCR, einem Standard-Multimodal-Gemeinsinn-Benchmark mit Bildern hauptsächlich aus westlichen Regionen, trainiert wurden. Anschließend evaluieren wir, wie gut die trainierten Modelle bei der Beantwortung von Fragen in GD-VCR generalisieren. Wir stellen fest, dass die Leistung beider Modelle für nicht-westliche Regionen – einschließlich Ostasien, Südasien und Afrika – signifikant niedriger ist als für westliche Regionen. Wir analysieren die Ursachen dieser Leistungsunterschiede und stellen fest, dass die Leistungslücke bei Fragenpaaren besonders groß ist, die: 1) kulturspezifische Szenarien betreffen, beispielsweise Hochzeiten, religiöse Aktivitäten und Feste; 2) hochwertiges, geo-diverses Gemeinsinn-Verständnis erfordern, anstatt lediglich niedrigstufige Wahrnehmung und Erkennung. Die Datensammlung und der Code sind unter https://github.com/WadeYin9712/GD-VCR veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp