Command Palette

Search for a command to run...

2 个月前

Hala技术报告:大规模构建以阿拉伯语为中心的指令与翻译模型

Hasan Abed Al Kader Hammoud Mohammad Zbeeb Bernard Ghanem

Hala技术报告:大规模构建以阿拉伯语为中心的指令与翻译模型

摘要

我们提出 Hala,一个以阿拉伯语为核心的指令模型与翻译模型系列,其构建基于我们自主研发的“翻译-微调”流水线。首先,我们将一个强大的自回归(AR)↔ 英语教师模型压缩至 FP8 精度,在不损失质量的前提下实现高达两倍的吞吐量提升;随后利用该模型生成高保真双语监督数据。接着,我们使用轻量级语言模型 LFM2-1.2B 在此数据上进行微调,并将其用于将高质量的英文指令集翻译为阿拉伯语,从而构建出一个规模达百万级、专为指令遵循任务定制的语料库。我们训练了参数量分别为 3.5 亿、7 亿、12 亿和 90 亿的 Hala 模型,并采用 slerp 合并技术,在保持基础模型优势的同时,有效平衡阿拉伯语专精能力。在面向阿拉伯语的核心基准测试中,Hala 在“纳米”(≤20 亿参数)和“小规模”(70 亿–90 亿参数)两个类别中均取得了当前最优性能,显著优于其基础模型。我们已公开发布模型、训练数据、评估结果及训练方案,以推动阿拉伯语自然语言处理领域的研究进展。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供