11 天前

音译对多语言语言建模有帮助吗?

Ibraheem Muhammad Moosa, Mahmud Elahi Akhter, Ashfia Binte Habib
音译对多语言语言建模有帮助吗?
摘要

脚本多样性对多语言语言模型(Multilingual Language Models, MLLM)构成了挑战,因为它降低了语义上密切相关语言之间的词汇重叠度。因此,将使用不同书写系统的密切关联语言通过音译转换至统一书写系统,可能有助于提升MLLM在下游任务中的性能。本文通过实证方法系统评估了音译对MLLM的影响。研究聚焦于全球脚本多样性最高的印地语族语言(Indic languages),并在IndicGLUE基准测试上评估模型表现。为严谨验证音译效果是否具有统计显著性,我们采用Mann-Whitney U检验进行分析。实验结果表明,音译显著提升了低资源语言的性能,同时未对资源相对丰富的语言造成负面影响。此外,我们利用FLORES-101数据集中平行语句的中心核对齐(centered kernel alignment, CKAs)方法,测量了模型的跨语言表征相似性。结果发现,在不同语言的平行句对上,基于音译的模型所学习到的句子表征具有更高的相似性。

音译对多语言语言建模有帮助吗? | 最新论文 | HyperAI超神经