2 个月前

CATT:基于字符的阿拉伯语塔什克尔变换器

Faris Alasmary; Orjuwan Zaafarani; Ahmad Ghannam
CATT:基于字符的阿拉伯语塔什克尔变换器
摘要

塔什基勒(Tashkeel),或阿拉伯文文本音符标注(Arabic Text Diacritization, ATD),通过消除歧义并减少因缺少音符而导致的误读,显著提升了阿拉伯文文本的理解能力。它在改进阿拉伯文文本处理方面发挥着关键作用,特别是在诸如从文本到语音转换和机器翻译等应用中。本文介绍了一种新的训练ATD模型的方法。首先,我们对两个基于预训练字符级BERT初始化的Transformer模型进行了微调,一个是仅编码器模型,另一个是编码器-解码器模型。然后,我们采用了Noisy-Student方法来提升最佳模型的性能。我们使用两个手动标注的基准数据集——WikiNews和我们的CATT数据集——对我们的模型与11个商业和开源模型进行了评估。研究结果表明,我们的顶级模型在WikiNews和CATT数据集上的相对音符错误率(Diacritic Error Rates, DERs)分别为30.83%和35.21%,超过了所有被评估的模型,在ATD领域达到了最先进的水平。此外,我们在CATT数据集上还展示了我们的模型相对于GPT-4-turbo的相对DER为9.36%的优势。我们已将CATT模型和基准数据集开源给研究社区\footnote{https://github.com/abjadai/catt}。

CATT:基于字符的阿拉伯语塔什克尔变换器 | 最新论文 | HyperAI超神经