HyperAIHyperAI
il y a 2 mois

Échelle des modèles de langage : méthodes, analyse et insights tirés de l'entraînement de Gopher

Jack W. Rae; Sebastian Borgeaud; Trevor Cai; Katie Millican; Jordan Hoffmann; Francis Song; John Aslanides; Sarah Henderson; Roman Ring; Susannah Young; Eliza Rutherford; Tom Hennigan; Jacob Menick; Albin Cassirer; Richard Powell; George van den Driessche; Lisa Anne Hendricks; Maribeth Rauh; Po-Sen Huang; Amelia Glaese; Johannes Welbl; Sumanth Dathathri; Saffron Huang; Jonathan Uesato; John Mellor; Irina Higgins; Antonia Creswell; Nat McAleese; Amy Wu; Erich Elsen; Siddhant Jayakumar; Elena Buchatskaya; David Budden; Esme Sutherland; Karen Simonyan; Michela Paganini; Laurent Sifre; Lena Martens; Xiang Lorraine Li; Adhiguna Kuncoro; Aida Nematzadeh; Elena Gribovskaya; Domenic Donato; Angeliki Lazaridou; Arthur Mensch; Jean-Baptiste Lespiau; Maria Tsimpoukelli; Nikolai Grigorev; Doug Fritz; Thibault Sottiaux; Mantas Pajarskas; Toby Pohlen; Zhitao Gong; Daniel Toyama; Cyprien de Masson d'Autume; Yujia Li; Tayfun Terzi; Vladimir Mikulik; Igor Babuschkin; Aidan Clark; Diego de Las Casas; Aurelia Guy; Chris Jones; James Bradbury; Matthew Johnson; Blake Hechtman; Laura Weidinger; Iason Gabriel; William Isaac; Ed Lockhart; Simon Osindero; Laura Rimell; Chris Dyer; Oriol Vinyals; Kareem Ayoub; Jeff Stanway; Lorrayne Bennett; Demis Hassabis; Koray Kavukcuoglu; Geoffrey Irving
Échelle des modèles de langage : méthodes, analyse et insights tirés de l'entraînement de Gopher
Résumé

Le modélisation linguistique constitue une étape vers des systèmes de communication intelligents en exploitant d'importants dépôts de connaissances humaines écrites pour mieux prédire et comprendre le monde. Dans cet article, nous présentons une analyse des performances des modèles linguistiques basés sur les Transformers à travers une large gamme d'échelles de modèles -- allant de modèles avec plusieurs dizaines de millions de paramètres jusqu'à un modèle de 280 milliards de paramètres appelé Gopher. Ces modèles sont évalués sur 152 tâches diverses, atteignant des performances d'état de l'art dans la majorité d'entre elles. Les gains liés à l'échelle sont les plus importants dans des domaines tels que la compréhension de lecture, la vérification des faits et l'identification du langage toxique, mais la logique et le raisonnement mathématique bénéficient moins de ces améliorations. Nous fournissons une analyse globale du jeu de données d'entraînement et du comportement du modèle, couvrant l'intersection entre l'échelle du modèle et les biais ainsi que la toxicité. Enfin, nous discutons de l'application des modèles linguistiques à la sécurité de l'IA et à la réduction des dommages en aval.