HyperAIHyperAI
il y a 2 mois

PaLM : Évolution des modèles de langage avec Pathways

Aakanksha Chowdhery; Sharan Narang; Jacob Devlin; Maarten Bosma; Gaurav Mishra; Adam Roberts; Paul Barham; Hyung Won Chung; Charles Sutton; Sebastian Gehrmann; Parker Schuh; Kensen Shi; Sasha Tsvyashchenko; Joshua Maynez; Abhishek Rao; Parker Barnes; Yi Tay; Noam Shazeer; Vinodkumar Prabhakaran; Emily Reif; Nan Du; Ben Hutchinson; Reiner Pope; James Bradbury; Jacob Austin; Michael Isard; Guy Gur-Ari; Pengcheng Yin; Toju Duke; Anselm Levskaya; Sanjay Ghemawat; Sunipa Dev; Henryk Michalewski; Xavier Garcia; Vedant Misra; Kevin Robinson; Liam Fedus; Denny Zhou; Daphne Ippolito; David Luan; Hyeontaek Lim; Barret Zoph; Alexander Spiridonov; Ryan Sepassi; David Dohan; Shivani Agrawal; Mark Omernick; Andrew M. Dai; Thanumalayan Sankaranarayana Pillai; Marie Pellat; Aitor Lewkowycz; Erica Moreira; Rewon Child; Oleksandr Polozov; Katherine Lee; Zongwei Zhou; Xuezhi Wang; Brennan Saeta; Mark Diaz; Orhan Firat; Michele Catasta; Jason Wei; Kathy Meier-Hellstern; Douglas Eck; Jeff Dean; Slav Petrov; Noah Fiedel
PaLM : Évolution des modèles de langage avec Pathways
Résumé

Les grands modèles de langage ont démontré des performances remarquables dans une variété de tâches de traitement du langage naturel en utilisant l'apprentissage à partir de quelques exemples (few-shot learning), ce qui réduit considérablement le nombre d'exemples d'entraînement spécifiques à la tâche nécessaires pour adapter le modèle à une application particulière. Pour approfondir notre compréhension de l'impact de l'échelle sur l'apprentissage à partir de quelques exemples, nous avons entraîné un modèle de langage Transformer activé de manière dense avec 540 milliards de paramètres, que nous appelons Pathways Language Model (PaLM). Nous avons formé PaLM sur 6144 puces TPU v4 en utilisant Pathways, un nouveau système d'apprentissage machine qui permet une formation très efficace sur plusieurs pods TPU. Nous démontrons les avantages persistants de l'échelle en obtenant des résultats d'apprentissage à partir de quelques exemples supérieurs à l'état de l'art sur des centaines de benchmarks d'analyse et de génération linguistiques. Sur plusieurs de ces tâches, PaLM 540B atteint des performances exceptionnelles, surpassant les modèles finement ajustés (finetuned) les plus performants actuellement disponibles dans une série de tâches impliquant un raisonnement en plusieurs étapes, et dépassant la performance moyenne humaine sur le benchmark BIG-bench récemment publié. Un nombre important de tâches BIG-bench ont montré des améliorations non linéaires liées à l'échelle du modèle, signifiant que les performances ont fortement augmenté lorsque nous avons élargi notre modèle à sa plus grande taille. PaLM possède également des capacités robustes dans les tâches multilingues et la génération de code source, comme nous le montrons sur un large éventail de benchmarks. Nous fournissons par ailleurs une analyse exhaustive des biais et toxicité, et étudions l'étendue de la mémorisation des données d'entraînement en fonction de l'échelle du modèle. Enfin, nous abordons les considérations éthiques liées aux grands modèles de langage et discutons des stratégies potentielles d'atténuation.