HyperAI
vor 3 Tagen

Falcon-H1: Eine Familie hybrider Kopf-Sprachmodelle, die Effizienz und Leistung neu definieren

Jingwei Zuo, Maksim Velikanov, Ilyas Chahed, Younes Belkada, Dhia Eddine Rhayem, Guillaume Kunsch, Hakim Hacid, Hamza Yous, Brahim Farhat, Ibrahim Khadraoui, Mugariya Farooq, Giulia Campesan, Ruxandra Cojocaru, Yasser Djilali, Shi Hu, Iheb Chaabane, Puneesh Khanna, Mohamed El Amine Seddik, Ngoc Dung Huynh, Phuc Le Khac, Leen AlQadi, Billel Mokeddem, Mohamed Chami, Abdalgader Abubaker, Mikhail Lubinets, Kacper Piskorski, Slim Frikha
Falcon-H1: Eine Familie hybrider Kopf-Sprachmodelle, die Effizienz und Leistung neu definieren
Abstract

In diesem Bericht stellen wir Falcon-H1 vor, eine neue Serie großer Sprachmodelle (Large Language Models, LLMs), die durch eine hybride Architektur optimiert sind, um sowohl hohe Leistung als auch Effizienz in einer Vielzahl von Anwendungsfällen zu erzielen. Im Gegensatz zu früheren Falcon-Modellen, die ausschließlich auf der Transformer- oder Mamba-Architektur basierten, verfolgt Falcon-H1 einen parallelen hybriden Ansatz, der die Aufmerksamkeitsmechanismen basierend auf Transformer mit Zustandsraummodellen (State Space Models, SSMs) kombiniert – jenen Modellen, die sich durch eine herausragende Fähigkeit zur Verarbeitung langer Kontexte sowie hohe rechnerische Effizienz auszeichnen. Wir haben systematisch die Modellarchitektur, die Datenstrategie sowie die Trainingsdynamik überprüft und etablierte Praktiken in der Forschungsgemeinschaft herausgefordert. Falcon-H1 wird in mehreren Konfigurationen veröffentlicht, darunter Basis- und instruktionsverfeinerte Varianten mit 0,5 B, 1,5 B, 1,5 B-deep, 3 B, 7 B und 34 B Parametern. Zudem stehen quantisierte, instruktionsverfeinerte Modelle zur Verfügung, insgesamt über 30 Checkpoints auf dem Hugging Face Hub. Die Falcon-H1-Modelle erreichen Spitzenleistung und zeichnen sich durch außergewöhnliche Effizienz in Bezug auf Parameteranzahl und Trainingsaufwand aus. Das Flaggschiff Falcon-H1-34B erreicht oder übertrifft Leistungswerte von Modellen mit bis zu 70 B Parametern wie Qwen3-32B, Qwen2.5-72B und Llama3.3-70B – und das mit weniger Parametern und geringerem Datenaufwand. Ähnliche Trends zeigen auch kleinere Modelle: Falcon-H1-1,5B-Deep konkurriert mit aktuellen Spitzenmodellen im Bereich von 7 B bis 10 B, während Falcon-H1-0,5B vergleichbare Ergebnisse wie typische 7 B-Modelle aus dem Jahr 2024 erzielt. Die Modelle überzeugen in Bereichen wie Schlussfolgerung, Mathematik, mehrsprachige Aufgaben, Anweisungsfolge und wissenschaftliches Wissen. Mit Unterstützung von bis zu 256 K Kontexttokens und 18 Sprachen eignen sich Falcon-H1-Modelle für eine breite Palette von Anwendungen. Alle Modelle werden unter einer permissiven Open-Source-Lizenz veröffentlicht, was unsere Verpflichtung zu zugänglicher und nachhaltiger KI-Forschung unterstreicht.