CamemBERT : un modèle linguistique français savoureux

Les modèles préentraînés de langage sont désormais omniprésents en traitement du langage naturel. Malgré leurs succès, la plupart des modèles disponibles ont été entraînés soit sur des données en anglais, soit sur une concaténation de données dans plusieurs langues. Cela limite fortement leur utilisation pratique dans toutes les langues autres que l’anglais. Dans cet article, nous étudions la faisabilité de l’entraînement de modèles de langage monolingues basés sur l’architecture Transformer pour d’autres langues, en prenant le français comme exemple, et évaluons nos modèles sur des tâches de segmentation morphosyntaxique, d’analyse syntaxique, de reconnaissance d’entités nommées et d’inférence linguistique naturelle. Nous montrons que l’utilisation de données extraites à partir du web est préférable à celle de données issues de Wikipedia. Plus surprenant encore, nous démontrons qu’un jeu de données web relativement petit (4 Go) permet d’obtenir des résultats aussi bons que ceux obtenus avec des jeux de données plus volumineux (130 Go ou plus). Notre meilleur modèle, CamemBERT, atteint ou dépasse l’état de l’art sur les quatre tâches descendantes.