
要約
近年、事前学習済み言語モデルは自然言語処理(NLP)分野を牽引しており、さまざまな複雑な自然言語タスクにおいて顕著な性能向上をもたらしている。その中で特に注目されるモデルの一つが、英語版および多言語版が公開されたBERTである。多言語BERTは多くのタスクにおいて良好な性能を発揮しているが、最近の研究では、単一言語で学習されたBERTモデルが多言語版を上回る性能を示すことが明らかになっている。このことから、オランダ語用のBERTモデルを構築することは、多様なオランダ語NLPタスクにおいて大きな可能性を秘めている。これまでのアプローチでは、BERTの初期実装を用いてオランダ語版BERTの学習が行われてきたが、本研究では、より堅牢に最適化されたBERTアーキテクチャであるRoBERTaを活用し、オランダ語向けの言語モデル「RobBERT」を構築した。我々は、さまざまなタスクにおける性能評価と、ファインチューニングデータセットサイズの重要性を測定した。また、言語固有のトークナイザーの役割およびモデルの公平性(fairness)についても検証を行った。その結果、RobBERTは多数のタスクにおいて最先端の成果を達成し、特に小規模なデータセットを扱う際には他のモデルを顕著に上回ることがわかった。これらの結果から、RobBERTは多様なオランダ語言語処理タスクに強力な事前学習モデルとして有効であることが示された。本研究で得られた事前学習済みおよびファインチューニング済みモデルは、今後のオランダ語NLPアプリケーションの発展を支援するため、公開されている。