Command Palette
Search for a command to run...
Hasan Abed Al Kader Hammoud Mohammad Zbeeb Bernard Ghanem

摘要
我们提出 Hala,一个以阿拉伯语为核心的指令模型与翻译模型系列,其构建基于我们自主研发的“翻译-微调”流水线。首先,我们将一个强大的自回归(AR)↔ 英语教师模型压缩至 FP8 精度,在不损失质量的前提下实现高达两倍的吞吐量提升;随后利用该模型生成高保真双语监督数据。接着,我们使用轻量级语言模型 LFM2-1.2B 在此数据上进行微调,并将其用于将高质量的英文指令集翻译为阿拉伯语,从而构建出一个规模达百万级、专为指令遵循任务定制的语料库。我们训练了参数量分别为 3.5 亿、7 亿、12 亿和 90 亿的 Hala 模型,并采用 slerp 合并技术,在保持基础模型优势的同时,有效平衡阿拉伯语专精能力。在面向阿拉伯语的核心基准测试中,Hala 在“纳米”(≤20 亿参数)和“小规模”(70 亿–90 亿参数)两个类别中均取得了当前最优性能,显著优于其基础模型。我们已公开发布模型、训练数据、评估结果及训练方案,以推动阿拉伯语自然语言处理领域的研究进展。