La Série Falcon de Modèles de Langue Ouverts

Nous présentons la série Falcon : des modèles de décodeur causal uniquement, avec 7 milliards (7B), 40 milliards (40B) et 180 milliards (180B) de paramètres, formés sur des corpus divers et de haute qualité principalement constitués de données web. Le modèle le plus grand, Falcon-180B, a été formé sur plus de 3,5 billions de jetons de texte--la plus grande formation préalable documentée publiquement. Falcon-180B dépasse significativement les performances des modèles tels que PaLM ou Chinchilla, et améliore ceux développés simultanément comme LLaMA 2 ou Inflection-1. Il se rapproche des performances du PaLM-2-Large à un coût réduit pour la formation préalable et l'inférence, ce qui en fait, selon nos connaissances, l'un des trois meilleurs modèles linguistiques au monde aux côtés du GPT-4 et du PaLM-2-Large. Nous rapportons des évaluations détaillées ainsi qu'une analyse approfondie des méthodes et des outils personnalisés utilisés pour la formation préalable de Falcon. Notamment, nous décrivons notre base de code de formation distribuée personnalisée, qui nous permet d'effectuer efficacement la formation préalable de ces modèles sur jusqu'à 4 096 GPU A100 dans une infrastructure AWS cloud avec une connectivité limitée. Nous mettons également à disposition un extrait de 600 milliards de jetons de notre ensemble de données web, ainsi que les modèles Falcon-7/40/180B sous une licence permissive afin de favoriser la science ouverte et d'accélérer le développement d'un écosystème ouvert de grands modèles linguistiques.