HyperAIHyperAI

Command Palette

Search for a command to run...

Hala-Technischer Bericht: Aufbau arabischzentrierter Anweisungs- und Übersetzungsmodelle im großen Maßstab

Hasan Abed Al Kader Hammoud Mohammad Zbeeb Bernard Ghanem

Zusammenfassung

Wir stellen Hala vor, eine Familie arabisch-zentrierter Anweisungs- und Übersetzungsmodelle, die mittels unseres „Translate-and-Tune“-Pipelines entwickelt wurden. Zunächst komprimieren wir einen leistungsstarken AR↔EN-Teacher auf FP8 (was eine Verdoppelung der Durchsatzleistung bei gleichbleibender Qualität ermöglicht) und nutzen ihn, um hochqualitative, zweisprachige Überwachungsdaten zu generieren. Anschließend wird ein leichtgewichtiges Sprachmodell, LFM2-1,2B, auf diesen Daten fine-tuned und zur Übersetzung hochwertiger englischer Anweisungssätze ins Arabische eingesetzt, wodurch eine millionenfach skalierte Korpus entsteht, speziell auf Anweisungsfolge ausgerichtet. Die Hala-Modelle werden mit 350 Mio., 700 Mio., 1,2 Mrd. und 9 Mrd. Parametern trainiert, wobei slerp-Merging eingesetzt wird, um ein Gleichgewicht zwischen arabischer Spezialisierung und den Stärken des Basismodells zu gewährleisten. Auf arabisch-zentrierten Benchmarks erreicht Hala state-of-the-art-Ergebnisse sowohl in der „Nano“-Kategorie (≤2B) als auch in der „Small“-Kategorie (7–9B) und übertrifft dabei die jeweiligen Basismodelle. Wir veröffentlichen die Modelle, die Daten, die Evaluierung sowie die Trainingsrezepte, um die Forschung im Bereich der arabischen NLP zu beschleunigen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp