HyperAI超神经

Sadeed:通过小语言模型推进阿拉伯语化

Zeina Aldallal, Sara Chrouf, Khalil Hennara, Mohamed Motaism Hamed, Muhammad Hreden, Safwan AlModhayan
发布日期: 5/7/2025
Sadeed:通过小语言模型推进阿拉伯语化
摘要

由于语言的形态学丰富性,阿拉伯语文本变写仍然是自然语言处理中的一个持续挑战。在本文中,我们介绍了Sadeed,一种基于从Kuwain 1.5B Hennara等人[2025]改编的微调解码器语言模型的新颖方法,这是一个最初在多样化的阿拉伯语料库上训练的紧凑模型。Sadeed在精心策划的高质量分文化数据集上进行了微调,这些数据集是通过严格的数据清理和归一化管道构建的。尽管使用了适度的计算资源,但与专有的大型语言模型相比,Sadeed取得了竞争成果,并优于在类似领域训练的传统模型。此外,我们强调了当前阿拉伯语化基准实践的关键限制。为了解决这些问题,我们引入了SadeedDiac-25,这是一个新的基准,旨在对不同的文本类型和复杂性水平进行更公平、更全面的评估。Sadeed和SadeedDiac-25共同为推进阿拉伯语NLP应用提供了坚实的基础,包括机器翻译、文本转语音和语言学习工具。