il y a 11 jours

SMART : Affinement robuste et efficace des modèles pré-entraînés en langage naturel par optimisation régularisée fondée sur des principes

Haoming Jiang, Pengcheng He, Weizhu Chen, Xiaodong Liu, Jianfeng Gao, Tuo Zhao

Résumé

Le transfert d'apprentissage a profondément transformé le paysage de la recherche en traitement du langage naturel (NLP). De nombreux modèles d'avant-garde actuels sont d'abord pré-entraînés sur de grandes corpora de texte, puis affinés sur des tâches spécifiques. Toutefois, en raison des ressources de données limitées disponibles pour ces tâches spécifiques, ainsi que de la capacité extrêmement élevée des modèles pré-entraînés, un affinage agressif entraîne souvent un surapprentissage sur les données de la tâche cible, ainsi qu'une perte des connaissances acquises durant le pré-entraînement. Pour résoudre ce problème de manière plus rigoureuse, nous proposons un nouveau cadre computationnel pour un affinage robuste et efficace des modèles linguistiques pré-entraînés. Plus précisément, notre cadre repose sur deux composantes essentielles : 1. une régularisation induisant la régularité (smoothness-inducing regularization), qui permet une gestion efficace de la capacité du modèle ; 2. une optimisation par point proximal de Bregman, une classe de méthodes de région de confiance, capable de prévenir la perte de connaissances. Nos expériences montrent que la méthode proposée atteint des performances de pointe sur plusieurs benchmarks de NLP.