5 个月前

监督式微调

自然语言处理

Hasan Abed Al Kader Hammoud Mohammad Zbeeb Bernard Ghanem

摘要

我们提出 Hala，一个以阿拉伯语为核心的指令模型与翻译模型系列，其构建基于我们自主研发的“翻译-微调”流水线。首先，我们将一个强大的自回归（AR）↔ 英语教师模型压缩至 FP8 精度，在不损失质量的前提下实现高达两倍的吞吐量提升；随后利用该模型生成高保真双语监督数据。接着，我们使用轻量级语言模型 LFM2-1.2B 在此数据上进行微调，并将其用于将高质量的英文指令集翻译为阿拉伯语，从而构建出一个规模达百万级、专为指令遵循任务定制的语料库。我们训练了参数量分别为 3.5 亿、7 亿、12 亿和 90 亿的 Hala 模型，并采用 slerp 合并技术，在保持基础模型优势的同时，有效平衡阿拉伯语专精能力。在面向阿拉伯语的核心基准测试中，Hala 在“纳米”（≤20 亿参数）和“小规模”（70 亿–90 亿参数）两个类别中均取得了当前最优性能，显著优于其基础模型。我们已公开发布模型、训练数据、评估结果及训练方案，以推动阿拉伯语自然语言处理领域的研究进展。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

5 个月前

监督式微调

自然语言处理

Hasan Abed Al Kader Hammoud Mohammad Zbeeb Bernard Ghanem

摘要

我们提出 Hala，一个以阿拉伯语为核心的指令模型与翻译模型系列，其构建基于我们自主研发的“翻译-微调”流水线。首先，我们将一个强大的自回归（AR）↔ 英语教师模型压缩至 FP8 精度，在不损失质量的前提下实现高达两倍的吞吐量提升；随后利用该模型生成高保真双语监督数据。接着，我们使用轻量级语言模型 LFM2-1.2B 在此数据上进行微调，并将其用于将高质量的英文指令集翻译为阿拉伯语，从而构建出一个规模达百万级、专为指令遵循任务定制的语料库。我们训练了参数量分别为 3.5 亿、7 亿、12 亿和 90 亿的 Hala 模型，并采用 slerp 合并技术，在保持基础模型优势的同时，有效平衡阿拉伯语专精能力。在面向阿拉伯语的核心基准测试中，Hala 在“纳米”（≤20 亿参数）和“小规模”（70 亿–90 亿参数）两个类别中均取得了当前最优性能，显著优于其基础模型。我们已公开发布模型、训练数据、评估结果及训练方案，以推动阿拉伯语自然语言处理领域的研究进展。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供