
摘要
阿拉伯语是一种形态丰富的语言,相较于英语,其资源相对匮乏,语法研究也相对不足。在这一背景下,诸如情感分析(Sentiment Analysis, SA)、命名实体识别(Named Entity Recognition, NER)以及问答系统(Question Answering, QA)等阿拉伯语自然语言处理(Natural Language Processing, NLP)任务面临极大挑战。近年来,随着基于Transformer架构的模型迅速发展,针对特定语言的BERT类模型在大规模语料库上进行预训练后,展现出卓越的语言理解能力,显著提升了各类NLP任务的性能,并在多数任务中达到当时最先进的水平。本文旨在为阿拉伯语专门开发并预训练BERT模型,以期在阿拉伯语NLP领域取得与英文BERT相同的成功。我们提出的模型名为AraBERT,其性能与谷歌发布的多语言BERT(mBERT)及其他先进方法进行了对比。实验结果表明,AraBERT在大多数测试的阿拉伯语NLP任务中均达到了当前最优(state-of-the-art)水平。为促进阿拉伯语自然语言处理领域的研究与应用,我们已将预训练的AraBERT模型公开发布于GitHub平台:https://github.com/aub-mind/arabert。