il y a 2 mois

GPT-NeoX-20B : Un modèle de langage autoregressif open-source

Sid Black; Stella Biderman; Eric Hallahan; Quentin Anthony; Leo Gao; Laurence Golding; Horace He; Connor Leahy; Kyle McDonell; Jason Phang; Michael Pieler; USVSN Sai Prashanth; Shivanshu Purohit; Laria Reynolds; Jonathan Tow; Ben Wang; Samuel Weinbach

Voir les détails de l'article

GPT-NeoX-20B : Un modèle de langage autoregressif open-source

Résumé

Nous présentons GPT-NeoX-20B, un modèle de langage autoregressif à 20 milliards de paramètres formé sur le Pile, dont les poids seront rendus librement et ouvertement disponibles au public grâce à une licence permissive. Selon nos connaissances, c'est le plus grand modèle autoregressif dense dont les poids sont publiquement disponibles au moment de la soumission. Dans cette étude, nous décrivons l'architecture et la formation du modèle \model{} ainsi que son évaluation sur une variété de tâches liées à la compréhension du langage, aux mathématiques et aux connaissances. Nous constatons que GPT-NeoX-20B est particulièrement puissant en tant que raisonneur à quelques exemples (few-shot) et gagne beaucoup plus en performance lorsqu'il est évalué avec cinq exemples (five-shot) par rapport aux modèles GPT-3 et FairSeq de taille similaire. Nous mettons en open source le code de formation et d'évaluation, ainsi que les poids du modèle, sur https://github.com/EleutherAI/gpt-neox.