Command Palette
Search for a command to run...
Hala-Technischer Bericht: Aufbau arabischzentrierter Anweisungs- und Übersetzungsmodelle im großen Maßstab
Hala-Technischer Bericht: Aufbau arabischzentrierter Anweisungs- und Übersetzungsmodelle im großen Maßstab
Hasan Abed Al Kader Hammoud Mohammad Zbeeb Bernard Ghanem
Zusammenfassung
Wir stellen Hala vor, eine Familie arabisch-zentrierter Anweisungs- und Übersetzungsmodelle, die mittels unseres „Translate-and-Tune“-Pipelines entwickelt wurden. Zunächst komprimieren wir einen leistungsstarken AR↔EN-Teacher auf FP8 (was eine Verdoppelung der Durchsatzleistung bei gleichbleibender Qualität ermöglicht) und nutzen ihn, um hochqualitative, zweisprachige Überwachungsdaten zu generieren. Anschließend wird ein leichtgewichtiges Sprachmodell, LFM2-1,2B, auf diesen Daten fine-tuned und zur Übersetzung hochwertiger englischer Anweisungssätze ins Arabische eingesetzt, wodurch eine millionenfach skalierte Korpus entsteht, speziell auf Anweisungsfolge ausgerichtet. Die Hala-Modelle werden mit 350 Mio., 700 Mio., 1,2 Mrd. und 9 Mrd. Parametern trainiert, wobei slerp-Merging eingesetzt wird, um ein Gleichgewicht zwischen arabischer Spezialisierung und den Stärken des Basismodells zu gewährleisten. Auf arabisch-zentrierten Benchmarks erreicht Hala state-of-the-art-Ergebnisse sowohl in der „Nano“-Kategorie (≤2B) als auch in der „Small“-Kategorie (7–9B) und übertrifft dabei die jeweiligen Basismodelle. Wir veröffentlichen die Modelle, die Daten, die Evaluierung sowie die Trainingsrezepte, um die Forschung im Bereich der arabischen NLP zu beschleunigen.