17日前

AraBERT:アラビア語理解のためのTransformerベースモデル

Wissam Antoun, Fady Baly, Hazem Hajj
AraBERT:アラビア語理解のためのTransformerベースモデル
要約

アラビア語は形態論的に豊かな言語であり、英語と比べてリソースが少なく、構文論的な研究もあまり進んでいない。こうした制約を踏まえ、感情分析(Sentiment Analysis, SA)、固有表現抽出(Named Entity Recognition, NER)、質問応答(Question Answering, QA)といったアラビア語自然言語処理(NLP)タスクは、非常に挑戦的な課題であることが明らかになっている。近年、Transformerベースのモデルの急激な発展に伴い、特定言語向けに事前学習されたBERTモデルが、非常に大きなコーパス上で事前学習が行われれば、言語理解において極めて効果的であることが示された。これらのモデルは、多くのNLPタスクにおいて新たな基準を設定し、最先端の性能を達成している。本論文では、英語におけるBERTが達成した成功を模倣するため、アラビア語専用に事前学習されたBERTモデル、すなわちAraBERTを提案する。AraBERTの性能は、Googleが提供する多言語BERTおよび他の最先端手法と比較された。その結果、新たに開発されたAraBERTは、多数のアラビア語NLPタスクにおいて最先端の性能を達成した。事前学習済みのAraBERTモデルは、https://github.com/aub-mind/arabert にて公開されており、アラビア語NLP分野における研究および応用の促進を目的としている。