Falcon-H1: Eine Familie hybrider Kopf-Sprachmodelle, die Effizienz und Leistung neu definieren

In diesem Bericht stellen wir Falcon-H1 vor, eine neue Serie großer Sprachmodelle (Large Language Models, LLMs), die durch eine hybride Architektur optimiert sind, um sowohl hohe Leistung als auch Effizienz in einer Vielzahl von Anwendungsfällen zu erzielen. Im Gegensatz zu früheren Falcon-Modellen, die ausschließlich auf der Transformer- oder Mamba-Architektur basierten, verfolgt Falcon-H1 einen parallelen hybriden Ansatz, der die Aufmerksamkeitsmechanismen basierend auf Transformer mit Zustandsraummodellen (State Space Models, SSMs) kombiniert – jenen Modellen, die sich durch eine herausragende Fähigkeit zur Verarbeitung langer Kontexte sowie hohe rechnerische Effizienz auszeichnen. Wir haben systematisch die Modellarchitektur, die Datenstrategie sowie die Trainingsdynamik überprüft und etablierte Praktiken in der Forschungsgemeinschaft herausgefordert. Falcon-H1 wird in mehreren Konfigurationen veröffentlicht, darunter Basis- und instruktionsverfeinerte Varianten mit 0,5 B, 1,5 B, 1,5 B-deep, 3 B, 7 B und 34 B Parametern. Zudem stehen quantisierte, instruktionsverfeinerte Modelle zur Verfügung, insgesamt über 30 Checkpoints auf dem Hugging Face Hub. Die Falcon-H1-Modelle erreichen Spitzenleistung und zeichnen sich durch außergewöhnliche Effizienz in Bezug auf Parameteranzahl und Trainingsaufwand aus. Das Flaggschiff Falcon-H1-34B erreicht oder übertrifft Leistungswerte von Modellen mit bis zu 70 B Parametern wie Qwen3-32B, Qwen2.5-72B und Llama3.3-70B – und das mit weniger Parametern und geringerem Datenaufwand. Ähnliche Trends zeigen auch kleinere Modelle: Falcon-H1-1,5B-Deep konkurriert mit aktuellen Spitzenmodellen im Bereich von 7 B bis 10 B, während Falcon-H1-0,5B vergleichbare Ergebnisse wie typische 7 B-Modelle aus dem Jahr 2024 erzielt. Die Modelle überzeugen in Bereichen wie Schlussfolgerung, Mathematik, mehrsprachige Aufgaben, Anweisungsfolge und wissenschaftliches Wissen. Mit Unterstützung von bis zu 256 K Kontexttokens und 18 Sprachen eignen sich Falcon-H1-Modelle für eine breite Palette von Anwendungen. Alle Modelle werden unter einer permissiven Open-Source-Lizenz veröffentlicht, was unsere Verpflichtung zu zugänglicher und nachhaltiger KI-Forschung unterstreicht.