11日前
CamemBERT:おいしいフランス語言語モデル
Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah, Benoît Sagot

要約
事前学習済み言語モデルは現在、自然言語処理(NLP)分野で広く普及している。その成功は著しいが、現存する多くのモデルは英語データ上で学習されているか、あるいは複数言語のデータを連結して学習している。このため、英語以外の言語においてこれらのモデルを実用的に活用することは極めて制限されている。本研究では、フランス語を例に挙げ、単一言語に特化したTransformerベースの言語モデルの訓練可能性を検討し、品詞タグ付け、依存構文解析、固有表現認識、自然言語推論といった下流タスクにおいてモデルの性能を評価した。その結果、Wikipediaデータよりもウェブクロールデータの使用がより適していることが明らかになった。さらに驚くべきことに、比較的小規模なウェブクロールデータセット(4GB)を用いても、大規模なデータセット(130GB以上)を用いた場合と同等の性能が達成できることを示した。本研究で開発した最良のモデルであるCamemBERTは、すべての4つの下流タスクにおいて、既存の最先端性能を達成または上回った。