RoBERTa : Une approche de préformation BERT optimisée de manière robuste

L'entraînement préalable des modèles de langage a conduit à des gains de performance significatifs, mais une comparaison minutieuse entre différentes approches est difficile. L'entraînement est coûteux en termes de calcul, souvent réalisé sur des jeux de données privés de tailles variées, et, comme nous le montrerons, les choix d'hyperparamètres ont un impact considérable sur les résultats finaux. Nous présentons une étude de réplication de l'entraînement préalable de BERT (Devlin et al., 2019) qui mesure soigneusement l'impact de nombreux hyperparamètres clés et de la taille des données d'entraînement. Nous constatons que BERT était considérablement sous-entraîné et peut égaler ou surpasser la performance de tous les modèles publiés après lui. Notre meilleur modèle obtient des résultats à l'état de l'art sur GLUE, RACE et SQuAD. Ces résultats soulignent l'importance des choix de conception précédemment négligés et soulèvent des questions sur l'origine des améliorations récemment rapportées. Nous mettons nos modèles et notre code à disposition.Note : - "GLUE" (General Language Understanding Evaluation) est conservé tel quel car c'est un acronyme couramment utilisé dans le domaine.- "RACE" (Reading Comprehension from Cloze Evaluation) est également conservé tel quel pour les mêmes raisons.- "SQuAD" (Stanford Question Answering Dataset) est conservé tel quel car c'est un nom propre.