2 个月前
DPCSpell:一种基于Transformer的拼写错误检测-净化-校正框架,适用于孟加拉语和资源匮乏的印度语言
Mehedi Hasan Bijoy; Nahid Hossain; Salekul Islam; Swakkhar Shatabda

摘要
拼写错误校正的任务是识别并纠正文本中的错别字。由于在人类语言理解方面有广泛的应用,它一直是自然语言处理领域的一个潜在且活跃的研究课题。无论是在哪种语言中,音近或形似但语义不同的字符都使得这一任务变得十分艰巨。早期针对孟加拉语和资源匮乏的印度次大陆语言的拼写错误校正研究主要集中在基于规则、统计和机器学习的方法上,但我们发现这些方法效率较低。特别是,尽管机器学习方法在性能上优于基于规则和统计的方法,但由于它们不考虑字符的适当性而逐个进行校正,因此效果不佳。本文提出了一种基于去噪变换器的新型检测-净化-校正框架(DPCSpell),以解决先前存在的问题。此外,我们还介绍了一种从零开始创建大规模语料库的方法,从而解决了任何左至右书写语言的资源限制问题。实证结果表明,我们的方法在孟加拉语拼写错误校正方面表现出色,其精确匹配(Exact Match, EM)得分为94.78%,精确度(Precision)得分为0.9487,召回率(Recall)得分为0.9478,F1得分为0.948,F0.5得分为0.9483,修正准确率(Modified Accuracy, MA)得分为95.16%,均超过了以往的最佳方法。相关模型和语料库已公开发布于 https://tinyurl.com/DPCSpell。