il y a 17 jours

FlauBERT : Pré-entraînement non supervisé de modèle de langage pour le français

Hang Le, Loïc Vial, Jibril Frej, Vincent Segonne, Maximin Coavoux, Benjamin Lecouteux, Alexandre Allauzen, Benoît Crabbé, Laurent Besacier, Didier Schwab

Voir les détails de l'article

FlauBERT : Pré-entraînement non supervisé de modèle de langage pour le français

Résumé

Les modèles de langage sont devenus une étape clé pour atteindre des résultats de pointe dans de nombreuses tâches de Traitement Automatique du Langage Naturel (TALN). Grâce à la quantité énorme de textes non étiquetés actuellement disponibles, ils offrent une méthode efficace pour pré-entraîner des représentations continues des mots, pouvant ensuite être affinées pour une tâche spécifique, tout en intégrant une contextualisation au niveau de la phrase. Ce progrès a été largement démontré pour la langue anglaise à l’aide de représentations contextualisées (Dai et Le, 2015 ; Peters et al., 2018 ; Howard et Ruder, 2018 ; Radford et al., 2018 ; Devlin et al., 2019 ; Yang et al., 2019b). Dans cet article, nous présentons et mettons à disposition FlauBERT, un modèle entraîné sur un très grand corpus hétérogène en français. Des modèles de tailles différentes ont été entraînés à l’aide du nouveau supercalculateur Jean Zay du CNRS (Centre National de la Recherche Scientifique). Nous appliquons nos modèles linguistiques français à diverses tâches de TALN (classification de texte, paraphrase, inférence linguistique naturelle, analyse syntaxique, désambiguïsation de sens des mots) et montrons que, dans la plupart des cas, ils surpassent d’autres approches de pré-entraînement. Différentes versions de FlauBERT ainsi qu’un protocole d’évaluation unifié pour les tâches en aval, appelé FLUE (French Language Understanding Evaluation), sont mises à disposition de la communauté scientifique afin de favoriser des expériences reproductibles dans le domaine du TALN en français.