2 个月前

基于去噪变换器的拼写校正

Alex Kuznetsov; Hector Urdiales
基于去噪变换器的拼写校正
摘要

我们提出了一种针对短输入字符串(如搜索查询或单个单词)进行拼写校正的新方法。该方法的核心在于生成与人类错误模式高度相似的人工拼写错误。这一过程用于训练基于变压器架构的生产拼写校正模型。目前,该模型已在HubSpot产品搜索中投入使用。我们展示了我们的拼写错误生成方法优于广泛采用的添加噪声的方法,后者忽略了人类的错误模式。此外,我们还演示了如何将这种方法扩展到资源匮乏的环境中,并在没有使用任何标注数据的情况下,为阿拉伯语、希腊语、俄语和茨瓦纳语(Setswana)训练了拼写校正模型。

基于去噪变换器的拼写校正 | 最新论文 | HyperAI超神经