Amélioration de l'ajustement fin en réduisant le collapse représentationnel

Bien que largement adoptées, les approches existantes pour l'ajustement fin des modèles de langage pré-entraînés ont été montrées comme étant instables en fonction des paramètres d'hyper-paramétrage, ce qui motive les travaux récents sur les méthodes de région de confiance. Dans cet article, nous présentons une méthode simplifiée et efficace basée sur la théorie de la région de confiance, qui remplace les objectifs adverses précédemment utilisés par du bruit paramétrique (échantillonnage à partir d'une distribution normale ou uniforme), dissuadant ainsi le changement de représentation pendant l'ajustement fin lorsque cela est possible sans nuire aux performances. Nous introduisons également une nouvelle analyse pour justifier l'utilisation plus générale des méthodes de région de confiance, en étudiant le phénomène de collapse représentatif ; la dégradation des représentations généralisables issues des modèles pré-entraînés lorsqu'ils sont ajustés finement pour une tâche finale spécifique. Des expériences approfondies montrent que notre méthode d'ajustement fin égale ou dépasse les performances des méthodes de région de confiance précédentes sur un large éventail de tâches d'interprétation et de génération (y compris DailyMail/CNN, Gigaword, Reddit TIFU et le benchmark GLUE), tout en étant beaucoup plus rapide. Nous montrons également qu'elle est moins sujette au collapse représentatif ; les modèles pré-entraînés conservent des représentations plus généralisables chaque fois qu'ils sont ajustés finement.