2ヶ月前

深層双方向多言語トランスフォーマーのロシア語への適応

Yuri Kuratov; Mikhail Arkhipov

要約

本論文では、多言語マスク言語モデルを特定の言語に適応させる方法を紹介しています。事前学習された双方向言語モデルは、読解、自然言語推論、感情分析などの幅広いタスクにおいて最先端の性能を示しています。現在、このようなモデルを学習するための2つの代替アプローチが存在します：単一言語と多言語です。言語固有のモデルは優れた性能を示す一方で、多言語モデルは異なる言語間での転移学習を行い、複数の言語に対して同時にタスクを解決することができます。本研究では、多言語モデルから単一言語モデルへの転移学習により、読解、言い換え検出、感情分析などのタスクにおける性能が大幅に向上することを示しています。さらに、単一言語モデルの初期化に多言語モデルを使用することで、学習時間は大幅に短縮されます。ロシア語用の事前学習済みモデルはオープンソースとして公開されています。