il y a 17 jours

AraBERT : Modèle basé sur Transformer pour la compréhension de la langue arabe

Wissam Antoun, Fady Baly, Hazem Hajj

Résumé

La langue arabe est une langue morphologiquement riche, mais elle dispose de ressources relativement limitées et d’une syntaxe moins explorée par rapport à l’anglais. Étant donné ces contraintes, les tâches de traitement automatique du langage naturel (NLP) en arabe, telles que l’analyse d’opinion (Sentiment Analysis, SA), la reconnaissance d’entités nommées (Named Entity Recognition, NER) et la réponse aux questions (Question Answering, QA), se sont révélées particulièrement difficiles à aborder. Récemment, avec l’essor des modèles fondés sur les transformateurs, les modèles BERT spécifiques à une langue se sont avérés extrêmement efficaces pour la compréhension du langage, à condition d’être pré-entraînés sur de très grands corpus. Ces modèles ont permis de fixer de nouveaux standards et d’atteindre des performances de pointe pour la plupart des tâches NLP. Dans cet article, nous présentons un pré-entraînement spécifique au langage arabe du modèle BERT, dans l’objectif de reproduire le succès remarquable obtenu par BERT pour la langue anglaise. La performance d’AraBERT est comparée à celle du BERT multilingue de Google ainsi qu’à d’autres approches de pointe. Les résultats montrent qu’AraBERT, nouvellement développé, atteint des performances de pointe sur la plupart des tâches NLP arabe testées. Les modèles pré-entraînés AraBERT sont désormais disponibles publiquement sur https://github.com/aub-mind/arabert, dans l’espoir de stimuler la recherche et les applications dans le domaine du NLP arabe.