HyperAIHyperAI

Command Palette

Search for a command to run...

Die Falcon-Serie von Open Language Modellen

Zusammenfassung

Wir stellen die Falcon-Serie vor: 7B, 40B und 180B Parameter kausale Decoder-Modelle, die auf einem vielfältigen, hochwertigen Korpus trainiert wurden, der hauptsächlich aus Webdaten zusammengestellt wurde. Das größte Modell, Falcon-180B, wurde mit über 3,5 Billionen Texttokens trainiert – das größte offiziell dokumentierte Vortrainingslauf. Falcon-180B übertreffen signifikant Modelle wie PaLM oder Chinchilla und verbessert sich im Vergleich zu gleichzeitig entwickelten Modellen wie LLaMA 2 oder Inflection-1. Es nähert sich der Leistung von PaLM-2-Large bei reduzierten Vortrainings- und Inferenzkosten, was es nach unserem Wissen eines der drei besten Sprachmodelle weltweit neben GPT-4 und PaLM-2-Large macht. Wir berichten detaillierte Evaluierungen sowie eine eingehende Analyse der Methoden und des benutzerdefinierten Werkzeugs, die für das Vortraining von Falcon verwendet wurden. Besonders erwähnenswert ist unser benutzerdefinierter verteilter Trainingscode, der es uns ermöglicht, diese Modelle effizient auf bis zu 4.096 A100s in der Cloud auf AWS-Infrastruktur mit begrenztem Interconnect zu vortrainieren. Wir veröffentlichen einen 600-Billionen-Token-Auszug aus unserem Web-Datensatz sowie die Falcon-7/40/180B-Modelle unter einer permissiven Lizenz, um offene Wissenschaft zu fördern und die Entwicklung eines offenen Ökosystems großer Sprachmodelle zu beschleunigen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Die Falcon-Serie von Open Language Modellen | Paper | HyperAI