il y a 2 mois

Entailment en tant que apprenant à few-shot

Sinong Wang; Han Fang; Madian Khabsa; Hanzi Mao; Hao Ma

Résumé

Les grands modèles de langage pré-entraînés (LM) ont démontré une capacité remarquable à apprendre avec peu d'exemples. Cependant, leur succès repose largement sur l'augmentation des paramètres du modèle à un niveau qui rend difficile leur entraînement et leur déploiement. Dans cet article, nous proposons une nouvelle approche nommée EFL, capable de transformer les petits modèles de langage en meilleurs apprenants avec peu d'exemples. L'idée clé de cette approche consiste à reformuler une tâche potentielle de traitement du langage naturel (NLP) en une tâche d'entailment, puis à affiner le modèle avec aussi peu que 8 exemples. Nous montrons également que notre méthode proposée peut être : (i) naturellement combinée avec une méthode d'augmentation de données basée sur un apprentissage contrastif non supervisé ; (ii) facilement étendue à l'apprentissage avec peu d'exemples dans plusieurs langues. Une évaluation systématique sur 18 tâches standard de NLP démontre que cette approche améliore les méthodes existantes d'apprentissage avec peu d'exemples (SOTA) de 12 %, et offre des performances compétitives en apprentissage avec peu d'exemples comparables à celles des modèles 500 fois plus grands, comme GPT-3.