11日前
多言語言語モデリングにおいて、表記転写は役立つのか?
Ibraheem Muhammad Moosa, Mahmud Elahi Akhter, Ashfia Binte Habib

要約
スクリプトの多様性は、密接に関連する言語間の語彙の重複を減少させることから、多言語言語モデル(MLLM)にとって課題を呈する。したがって、異なる書き言語を使用する密接に関連する言語を共通のスクリプトに表記変換(トランスリタレーション)することで、MLLMの下流タスク性能が向上する可能性がある。本研究では、この文脈におけるトランスリタレーションの影響を実証的に測定する。特に、世界で最もスクリプトの多様性が高いとされるインド諸語に焦点を当て、IndicGLUEベンチマーク上でモデルの性能を評価した。また、トランスリタレーションの効果が有意かどうかを厳密に検証するため、Mann-Whitney U検定を実施した。その結果、リソースが少ない言語に対してトランスリタレーションが有益である一方で、比較的リソースが豊富な言語の性能には悪影響を及ぼさないことが明らかになった。さらに、FLORES-101データセットに含まれる並列文を用いて、中心化されたカーネル整合性(centered kernel alignment: CKM)を用いてモデルのクロスリンガル表現類似度を測定した。その結果、異なる言語間の並列文において、トランスリタレーションに基づくモデルがより類似した文表現を学習していることが確認された。