
摘要
近年来,预训练语言模型在自然语言处理领域占据主导地位,并显著提升了多种复杂自然语言任务的性能。其中最具代表性的预训练语言模型之一是BERT,其不仅推出了英文版本,还发布了多语言版本。尽管多语言BERT在许多任务上表现良好,但近期研究表明,仅在单一语言上训练的BERT模型在性能上显著优于多语言版本。因此,训练一个针对荷兰语的BERT模型在众多荷兰语自然语言处理任务中具有巨大潜力。尽管以往的研究已采用早期BERT实现来训练荷兰语版本的BERT模型,本文我们则采用了一种更为稳健优化的BERT变体——RoBERTa,成功训练出一个名为RobBERT的荷兰语语言模型。我们评估了该模型在多种任务上的表现,并考察了微调数据集规模的重要性。此外,我们还分析了语言特异性分词器的作用以及模型的公平性。实验结果表明,RobBERT在多项任务上均显著超越现有最先进水平,尤其在小规模数据集上表现尤为突出。这些结果表明,RobBERT是一个适用于多种荷兰语任务的强大预训练模型。该模型的预训练版本及微调后版本均已公开发布,旨在支持后续荷兰语自然语言处理应用的进一步发展。