Visuell verankertes Reasoning über Sprachen und Kulturen

Die Gestaltung umfangreicher Vision-und-Sprache-Datensätze sowie vortrainierter Encoder bezieht sich direkt oder zieht Anregungen aus den Konzepten und Bildern von ImageNet. Obwohl man kaum überbewerten kann, wie sehr dieser Benchmark zum Fortschritt im Bereich des maschinellen Sehens beigetragen hat, stammt er überwiegend aus lexikalischen Datenbanken und Bildabfragen auf Englisch und weist daher eine klare Bias-Richtung hin zu Nordamerika oder Westeuropa auf. Daher entwickeln wir ein neues Protokoll, um eine ImageNet-ähnliche Hierarchie zu erstellen, die eine breitere Palette von Sprachen und Kulturen repräsentiert. Insbesondere lassen wir die Auswahl sowohl von Konzepten als auch von Bildern vollständig von muttersprachlichen Sprechern bestimmen, anstatt sie automatisch zu sammeln. Konkret konzentrieren wir uns auf eine typologisch vielfältige Gruppe von Sprachen, nämlich Indonesisch, Mandarin-Chinesisch, Swahili, Tamil und Türkisch. Auf Basis der durch dieses neue Protokoll gewonnenen Konzepte und Bilder erstellen wir eine mehrsprachige Datensammlung für multikulturelles Schlussfolgern über Vision und Sprache (MaRVL), indem wir Aussagen von muttersprachlichen Annotationen zu Bildpaaren einholen. Die Aufgabe besteht darin, zu entscheiden, ob jede begründete Aussage wahr oder falsch ist. Wir etablieren eine Reihe von Benchmarks mithilfe state-of-the-art-Modelle und stellen fest, dass ihre Leistung beim Übersprachlichen Transfer deutlich hinter der in Englisch erzielten überwachten Leistung zurückbleibt. Diese Ergebnisse fordern uns auf, die Robustheit und Genauigkeit der derzeitigen state-of-the-art-Modelle jenseits eines engen Anwendungsbereichs neu zu bewerten – gleichzeitig eröffnen sie jedoch auch neue, spannende Herausforderungen für die Entwicklung wirklich mehrsprachiger und multikultureller Systeme.