2日前

文化的知識を用いた多言語多モーダル大規模言語モデルの接地

Jean de Dieu Nyandwi, Yueqi Song, Simran Khanuja, Graham Neubig
文化的知識を用いた多言語多モーダル大規模言語モデルの接地
要約

マルチモーダル大規模言語モデル(MLLM)は、リソースが豊富な環境では優れた性能を発揮するが、長尾に位置する文化的なエンティティの解釈に誤りを生じやすく、リソースが限られた言語では性能が低下する傾向がある。このギャップを解消するため、本研究では文化知識に基づいたデータ中心のアプローチを提案する。具体的には、Wikidataから取得した大規模な知識グラフを活用し、文化的に重要なエンティティを表す画像を収集し、多言語対応の合成視覚質問応答(VQA)データを生成する。その結果得られたデータセット「CulturalGround」は、42カ国・39言語をカバーする2200万件の高品質かつ文化的に豊かなVQAペアを含んでいる。このデータセット上でオープンソースのMLLM「CulturalPangea」を学習し、標準的な多言語インストラクションチューニングデータを併用することで、汎用性を維持する。CulturalPangeaは、複数の文化的テーマに焦点を当てた多言語マルチモーダルベンチマークにおいて、オープンモデルの中で最先端の性能を達成し、従来モデルと比較して平均5.0ポイントの向上を実現しつつ、主流の視覚言語タスクにおける性能は低下させない。本研究の結果から、文化的に特化した知識に基づいたアプローチが、MLLMにおける文化的な格差を著しく縮小し、グローバルに包摂的なマルチモーダルシステム実現に向けた実用的な道筋を提供できることが示された。

文化的知識を用いた多言語多モーダル大規模言語モデルの接地 | 最新論文 | HyperAI超神経