vor 2 Monaten

Die Falcon-Serie von Open Language Modellen

Ebtesam Almazrouei; Hamza Alobeidli; Abdulaziz Alshamsi; Alessandro Cappelli; Ruxandra Cojocaru; Mérouane Debbah; Étienne Goffinet; Daniel Hesslow; Julien Launay; Quentin Malartic; Daniele Mazzotta; Badreddine Noune; Baptiste Pannier; Guilherme Penedo

Details der Forschungsarbeit anzeigen

Die Falcon-Serie von Open Language Modellen

Abstract

Wir stellen die Falcon-Serie vor: 7B, 40B und 180B Parameter kausale Decoder-Modelle, die auf einem vielfältigen, hochwertigen Korpus trainiert wurden, der hauptsächlich aus Webdaten zusammengestellt wurde. Das größte Modell, Falcon-180B, wurde mit über 3,5 Billionen Texttokens trainiert – das größte offiziell dokumentierte Vortrainingslauf. Falcon-180B übertreffen signifikant Modelle wie PaLM oder Chinchilla und verbessert sich im Vergleich zu gleichzeitig entwickelten Modellen wie LLaMA 2 oder Inflection-1. Es nähert sich der Leistung von PaLM-2-Large bei reduzierten Vortrainings- und Inferenzkosten, was es nach unserem Wissen eines der drei besten Sprachmodelle weltweit neben GPT-4 und PaLM-2-Large macht. Wir berichten detaillierte Evaluierungen sowie eine eingehende Analyse der Methoden und des benutzerdefinierten Werkzeugs, die für das Vortraining von Falcon verwendet wurden. Besonders erwähnenswert ist unser benutzerdefinierter verteilter Trainingscode, der es uns ermöglicht, diese Modelle effizient auf bis zu 4.096 A100s in der Cloud auf AWS-Infrastruktur mit begrenztem Interconnect zu vortrainieren. Wir veröffentlichen einen 600-Billionen-Token-Auszug aus unserem Web-Datensatz sowie die Falcon-7/40/180B-Modelle unter einer permissiven Lizenz, um offene Wissenschaft zu fördern und die Entwicklung eines offenen Ökosystems großer Sprachmodelle zu beschleunigen.