11日前

InfoXLM:異言語言語モデル事前学習のための情報理論的枠組み

Zewen Chi, Li Dong, Furu Wei, Nan Yang, Saksham Singhal, Wenhui Wang, Xia Song, Xian-Ling Mao, Heyan Huang, Ming Zhou
InfoXLM:異言語言語モデル事前学習のための情報理論的枠組み
要約

本研究では、多言語・多粒度テキスト間の相互情報量を最大化することにより、多言語言語モデルの事前学習を定式化する情報理論的枠組みを提示する。この統一的な視点により、既存の多言語表現学習手法の理解が深まる。さらに、この枠組みに着想を得て、対照学習に基づく新しい事前学習タスクを提案する。具体的には、双語文ペアを同一意味の2つの視点と捉え、その符号化表現がネガティブサンプルよりもより類似するように促進する。単語レベルおよび平行コーパスを活用することで、事前学習タスクを統合的に学習し、事前学習モデルの多言語間転移性を向上させる。複数のベンチマークにおける実験結果から、本手法が顕著な性能向上を達成することが示された。コードおよび事前学習済みモデルは、https://aka.ms/infoxlm にて公開されている。

InfoXLM:異言語言語モデル事前学習のための情報理論的枠組み | 最新論文 | HyperAI超神経