2일 전

다문화 지식을 통한 다국어 다모달 대규모 언어 모델의 기반 형성

Jean de Dieu Nyandwi, Yueqi Song, Simran Khanuja, Graham Neubig
다문화 지식을 통한 다국어 다모달 대규모 언어 모델의 기반 형성
초록

다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)은 자원이 풍부한 환경에서는 뛰어난 성능을 발휘하지만, 장꼬리(長尾) 문화적 실체를 오해하거나 자원이 부족한 언어에서는 성능이 저조하는 경향이 있다. 이러한 격차를 보완하기 위해 우리는 문화 지식에 직접 기반을 두는 데이터 중심 접근법을 제안한다. 위키데이터(Wikidata)에서 확보한 대규모 지식 그래프를 활용하여 문화적으로 중요한 실체를 대표하는 이미지를 수집하고, 합성된 다국어 시각질의응답(VQA) 데이터를 생성한다. 이를 통해 얻은 데이터셋인 CulturalGround는 42개국과 39개 언어를 아우르는 2,200만 개의 고품질이며 문화적 풍부함이 담긴 VQA 쌍으로 구성되어 있다. 우리는 이 데이터셋을 기반으로 오픈소스 MLLM인 CulturalPangea를 학습시켰으며, 일반적인 다국어 지시 조정(instruction-tuning) 데이터를 병행하여 일반적인 능력을 유지한다. CulturalPangea는 다양한 문화 중심의 다국어 다중모달 벤치마크에서 오픈 모델 중 최고 성능을 기록하며, 주류 시각-언어 작업에서의 성능 저하 없이 기존 모델 대비 평균 5.0점의 성능 향상을 달성했다. 본 연구 결과는 타깃화된 문화 기반 접근법이 MLLMs의 문화적 격차를 상당히 좁힐 수 있으며, 전 세계적으로 포용적인 다중모달 시스템 구현을 위한 실용적인 길을 제시할 수 있음을 보여준다.

다문화 지식을 통한 다국어 다모달 대규모 언어 모델의 기반 형성 | 최신 연구 논문 | HyperAI초신경