HyperAIHyperAI
il y a 2 mois

Les modèles de langage sont des apprenants à quelques exemples.

Tom B. Brown; Benjamin Mann; Nick Ryder; Melanie Subbiah; Jared Kaplan; Prafulla Dhariwal; Arvind Neelakantan; Pranav Shyam; Girish Sastry; Amanda Askell; Sandhini Agarwal; Ariel Herbert-Voss; Gretchen Krueger; Tom Henighan; Rewon Child; Aditya Ramesh; Daniel M. Ziegler; Jeffrey Wu; Clemens Winter; Christopher Hesse; Mark Chen; Eric Sigler; Mateusz Litwin; Scott Gray; Benjamin Chess; Jack Clark; Christopher Berner; Sam McCandlish; Alec Radford; Ilya Sutskever; Dario Amodei
Les modèles de langage sont des apprenants à quelques exemples.
Résumé

Des travaux récents ont démontré des progrès substantiels dans de nombreuses tâches et benchmarks en traitement du langage naturel (NLP) grâce à une pré-formation sur un grand corpus de texte suivie d'un affinage pour une tâche spécifique. Bien que cette méthode soit généralement agnostique en termes de tâche au niveau de l'architecture, elle nécessite toujours des jeux de données spécifiques à la tâche comprenant des milliers ou des dizaines de milliers d'exemples pour l'affinage. En revanche, les humains peuvent généralement effectuer une nouvelle tâche linguistique à partir de quelques exemples seulement ou d'instructions simples, ce qui reste largement un défi pour les systèmes actuels de NLP. Nous montrons ici que l'augmentation considérable de la taille des modèles linguistiques améliore grandement les performances en mode "peu d'exemples" (few-shot) et sans connaissance préalable de la tâche, parfois même atteignant le niveau des approches précédentes basées sur l'affinage. Plus précisément, nous avons formé GPT-3, un modèle linguistique autorégressif doté de 175 milliards de paramètres, soit 10 fois plus que tout autre modèle non éparse précédent, et nous avons évalué ses performances dans un contexte "peu d'exemples". Pour toutes les tâches, GPT-3 est utilisé sans mise à jour des gradients ni affinage, les tâches et les démonstrations "peu d'exemples" étant définies uniquement par une interaction textuelle avec le modèle. GPT-3 obtient des résultats solides sur de nombreux jeux de données en NLP, notamment en traduction, questions-réponses et tâches de complétion (cloze), ainsi que sur plusieurs tâches nécessitant une capacité de raisonnement immédiate ou d'adaptation à un domaine particulier, comme le désordre des mots, l'utilisation d'un mot nouveau dans une phrase ou la réalisation d'opérations arithmétiques à trois chiffres. En même temps, nous identifions également certains jeux de données où les performances "peu d'exemples" de GPT-3 restent insuffisantes, ainsi que certains jeux de données où GPT-3 rencontre des problèmes méthodologiques liés à sa formation sur des corpus web importants. Enfin, nous constatons que GPT-3 peut générer des échantillons d'articles de presse que les évaluateurs humains ont du mal à distinguer des articles écrits par des humains. Nous discutons des impacts sociétaux plus larges découlant de cette observation et du modèle GPT-3 en général.