HyperAIHyperAI
il y a 2 mois

OPT : Modèles de langage pré-entraînés ouverts

Susan Zhang; Stephen Roller; Naman Goyal; Mikel Artetxe; Moya Chen; Shuohui Chen; Christopher Dewan; Mona Diab; Xian Li; Xi Victoria Lin; Todor Mihaylov; Myle Ott; Sam Shleifer; Kurt Shuster; Daniel Simig; Punit Singh Koura; Anjali Sridhar; Tianlu Wang; Luke Zettlemoyer
OPT : Modèles de langage pré-entraînés ouverts
Résumé

Les grands modèles de langage, qui sont souvent formés pendant des centaines de milliers de jours de calcul, ont démontré des capacités remarquables pour l'apprentissage à zéro et peu d'exemples. Étant donné leur coût computationnel, ces modèles sont difficiles à reproduire sans un investissement significatif. Pour les quelques modèles disponibles via des API, l'accès aux poids complets du modèle n'est pas autorisé, ce qui les rend difficiles à étudier. Nous présentons Open Pre-trained Transformers (OPT), une suite de transformateurs pré-entraînés uniquement avec un décodeur, allant de 125 millions à 175 milliards de paramètres, que nous visons à partager pleinement et de manière responsable avec les chercheurs intéressés. Nous montrons que OPT-175B est comparable à GPT-3, tout en nécessitant seulement 1/7e de l'empreinte carbone pour son développement. Nous publions également notre carnet de bord détaillant les défis infrastructurels que nous avons rencontrés, ainsi que le code pour expérimenter avec tous les modèles publiés.

OPT : Modèles de langage pré-entraînés ouverts | Articles de recherche récents | HyperAI