il y a 18 jours

RobBERT : un modèle de langage basé sur RoBERTa pour le néerlandais

Pieter Delobelle, Thomas Winters, Bettina Berendt

Résumé

Les modèles linguistiques préentraînés ont dominé le domaine du traitement automatique du langage au cours des dernières années, conduisant à des progrès significatifs sur de nombreuses tâches complexes de traitement du langage naturel. L’un des modèles préentraînés les plus emblématiques est BERT, disponible à la fois en version anglaise et multilingue. Bien que BERT multilingue se comporte bien sur de nombreuses tâches, des études récentes montrent que les modèles BERT entraînés sur une seule langue surpassent nettement la version multilingue. L’entraînement d’un modèle BERT dédié au néerlandais présente donc un grand potentiel pour une large gamme de tâches de traitement du langage naturel en néerlandais. Alors que les approches antérieures ont utilisé des implémentations antérieures de BERT pour entraîner une version néerlandaise de BERT, nous avons adopté RoBERTa, une variante robuste et optimisée de BERT, afin d’entraîner un modèle linguistique néerlandais baptisé RobBERT. Nous avons évalué ses performances sur diverses tâches, ainsi que l’importance de la taille des jeux de données utilisés pour le fine-tuning. Nous avons également examiné l’importance des tokenizers spécifiques à la langue et la question de l’équité du modèle. Nos résultats montrent que RobBERT améliore les résultats de l’état de l’art sur plusieurs tâches, et s’impose particulièrement en dépassant nettement les autres modèles lorsqu’il est confronté à des jeux de données de petite taille. Ces résultats indiquent qu’il s’agit d’un modèle préentraîné puissant pour une grande variété de tâches linguistiques en néerlandais. Les modèles préentraînés et fine-tunés sont rendus publics afin de soutenir le développement ultérieur des applications néerlandaises de traitement du langage naturel.