17日前
BERTje:オランダ語BERTモデル
Wietse de Vries, Andreas van Cranenburgh, Arianna Bisazza, Tommaso Caselli, Gertjan van Noord, Malvina Nissim

要約
トランスフォーマーに基づく事前学習済み言語モデルであるBERTは、自然言語処理(NLP)の多数のタスクにおいて、最先端の性能を向上させるのに寄与してきました。同じアーキテクチャとパラメータを用いて、単言語向けのオランダ語BERTモデル「BERTje」を開発・評価しました。多言語BERTモデル(オランダ語を含むが、Wikipediaのテキストのみを基にしている)と比較して、BERTjeは24億トークンに及ぶ大規模かつ多様なデータセットを基盤としています。下流タスク(品詞タグ付け、固有表現抽出、意味役割ラベリング、感情分析)において、同等サイズの多言語BERTモデルを常に上回る性能を発揮しました。本研究で開発した事前学習済みオランダ語BERTモデルは、https://github.com/wietsedv/bertje にて公開されています。