vor 2 Tagen

Grundlegung mehrsprachiger multimodaler LLMs mit kulturellem Wissen

Jean de Dieu Nyandwi, Yueqi Song, Simran Khanuja, Graham Neubig

Abstract

Multimodale große Sprachmodelle (MLLMs) erzielen in ressourcenintensiven Umgebungen herausragende Leistungen, interpretieren jedoch oft kulturelle Entitäten aus dem langen Schwanz falsch und zeigen unterdurchschnittliche Performance in sprachlich benachteiligten Regionen. Um diese Lücke zu schließen, schlagen wir einen datenzentrierten Ansatz vor, der MLLMs direkt in kulturelles Wissen einbettet. Ausnutzend eines umfangreichen Wissensgraphen aus Wikidata sammeln wir Bilder, die kulturell bedeutende Entitäten repräsentieren, und generieren synthetische, mehrsprachige visuelle Frage-Antwort-Daten. Das resultierende Datenset, CulturalGround, umfasst 22 Millionen hochwertige, kulturreiche VQA-Paare, die sich über 42 Länder und 39 Sprachen erstrecken. Wir trainieren ein Open-Source-MLLM namens CulturalPangea auf Basis von CulturalGround und mischen dabei standardmäßige, mehrsprachige Anweisungstuning-Daten ein, um allgemeine Fähigkeiten zu bewahren. CulturalPangea erreicht auf verschiedenen kulturorientierten, mehrsprachigen multimodalen Benchmarks die bisher beste Leistung unter offenen Modellen und übertrifft vorherige Modelle im Durchschnitt um 5,0 Prozent, ohne die Ergebnisse auf gängigen visuell-sprachlichen Aufgaben zu verschlechtern. Unsere Ergebnisse zeigen, dass unser gezielter, kulturell fundierter Ansatz die kulturelle Kluft in MLLMs erheblich verkleinern und einen praktikablen Weg hin zu global inklusiven multimodalen Systemen eröffnen könnte.