HyperAIHyperAI
il y a 2 jours

Ancrage des modèles linguistiques multimodaux multilingues par des connaissances culturelles

Jean de Dieu Nyandwi, Yueqi Song, Simran Khanuja, Graham Neubig
Ancrage des modèles linguistiques multimodaux multilingues par des connaissances culturelles
Résumé

Les modèles linguistiques à grande échelle multimodaux (MLLM) se distinguent dans les contextes à ressources abondantes, mais ont tendance à mal interpréter les entités culturelles rares (long-tail) et à sous-performer dans les langues à faibles ressources. Pour combler cet écart, nous proposons une approche centrée sur les données, qui ancre directement les MLLM dans des connaissances culturelles. En exploitant un grand graphe de connaissances issu de Wikidata, nous collectons des images représentant des entités culturellement significatives, puis générons des données synthétiques de réponse à des questions visuelles multilingues. Le jeu de données résultant, nommé CulturalGround, comprend 22 millions de paires VQA (réponse à des questions visuelles) de haute qualité, riches en contenu culturel, couvrant 42 pays et 39 langues. Nous entraînons un modèle MLLM open-source, CulturalPangea, sur CulturalGround, en alternant des données d'instruction multilingues standards afin de préserver ses capacités générales. CulturalPangea atteint des performances de pointe parmi les modèles open-source sur diverses évaluations multimodales multilingues axées sur la culture, surpassant les modèles antérieurs en moyenne de 5,0 points sans dégrader les résultats sur les tâches courantes vision-langage. Nos résultats démontrent qu’une approche ciblée et ancrée dans la culture peut considérablement réduire l’écart culturel des MLLM et ouvrir une voie concrète vers des systèmes multimodaux globalement inclusifs.

Ancrage des modèles linguistiques multimodaux multilingues par des connaissances culturelles | Articles de recherche récents | HyperAI