HyperAIHyperAI
il y a 2 mois

Exploration des limites de l'apprentissage par transfert avec un transformateur textuel unifié

Colin Raffel; Noam Shazeer; Adam Roberts; Katherine Lee; Sharan Narang; Michael Matena; Yanqi Zhou; Wei Li; Peter J. Liu
Exploration des limites de l'apprentissage par transfert avec un transformateur textuel unifié
Résumé

L'apprentissage par transfert, où un modèle est d'abord pré-entraîné sur une tâche riche en données avant d'être affiné sur une tâche descendante, est apparu comme une technique puissante dans le traitement du langage naturel (NLP). L'efficacité de l'apprentissage par transfert a engendré une diversité d'approches, de méthodologies et de pratiques. Dans cet article, nous explorons le paysage des techniques d'apprentissage par transfert pour le NLP en introduisant un cadre unifié qui convertit tous les problèmes linguistiques basés sur le texte en un format texte-à-texte. Notre étude systématique compare les objectifs de pré-entraînement, les architectures, les ensembles de données non étiquetées, les approches de transfert et autres facteurs sur plusieurs dizaines de tâches de compréhension linguistique. En combinant les enseignements tirés de notre exploration avec l'échelle et notre nouveau « Colossal Clean Crawled Corpus » (CCCC), nous obtenons des résultats à l'état de l'art sur de nombreux benchmarks couvrant la résumation, la réponse aux questions, la classification du texte et plus encore. Pour faciliter les travaux futurs sur l'apprentissage par transfert pour le NLP, nous mettons à disposition notre ensemble de données, nos modèles pré-entraînés et notre code.