La dimension intrinsèque explique l'efficacité du fine-tuning des modèles linguistiques

Bien que les modèles linguistiques préentraînés puissent être affinés pour produire des résultats de pointe dans une très large gamme de tâches de compréhension du langage, les dynamiques de ce processus restent mal comprises, en particulier dans le régime à faible quantité de données. Pourquoi pouvons-nous utiliser des algorithmes de descente de gradient relativement simples (par exemple, sans régularisation forte) pour ajuster des modèles comptant des centaines de millions de paramètres sur des jeux de données ne comportant que quelques centaines ou milliers d’exemples étiquetés ? Dans cet article, nous soutenons que l’analyse de l’affinage à travers le prisme de la dimension intrinsèque nous fournit à la fois des intuitions empiriques et théoriques pour expliquer ce phénomène remarquable. Nous montrons empiriquement que les modèles préentraînés courants présentent une dimension intrinsèque très faible ; autrement dit, il existe une réparamétrisation à faible dimension aussi efficace que l’espace complet des paramètres pour l’affinage. Par exemple, en optimisant uniquement 200 paramètres entraînables projetés aléatoirement dans l’espace complet, nous pouvons ajuster un modèle RoBERTa afin d’atteindre 90 % du niveau de performance obtenu avec tous les paramètres sur la tâche MRPC. En outre, nous démontrons empiriquement que le préentraînement minimise implicitement la dimension intrinsèque, et, peut-être de manière surprenante, les modèles plus grands tendent à présenter une dimension intrinsèque plus faible après un nombre fixe d’itérations de préentraînement, ce qui explique en partie leur efficacité extrême. Enfin, nous établissons un lien entre la dimension intrinsèque et les représentations de tâches à faible dimension, ainsi que les bornes de généralisation basées sur la compression, afin de proposer des bornes de généralisation fondées sur la dimension intrinsèque, indépendantes du nombre total de paramètres.