17 天前

BPE-Dropout:简单而有效的子词正则化

Ivan Provilkov, Dmitrii Emelianenko, Elena Voita
BPE-Dropout:简单而有效的子词正则化
摘要

子词切分(subword segmentation)被广泛用于解决机器翻译中的开放词汇表问题。目前主流的子词切分方法是字节对编码(Byte Pair Encoding, BPE),该方法保留高频词的完整性,同时将低频词拆分为多个子词单元。尽管在相同词汇表下可能存在多种不同的切分方式,BPE却会将每个词唯一地切分为确定的子词序列,这种确定性可能阻碍模型更好地学习词的构成性特征,并降低对切分错误的鲁棒性。迄今为止,克服BPE这一确定性缺陷的唯一方法是设计新的子词切分算法(Kudo, 2018)。相比之下,我们证明BPE本身具备生成同一词语多种切分结果的能力。为此,我们提出BPE-dropout——一种基于传统BPE、简单且有效的子词正则化方法。该方法通过随机扰动BPE的切分过程,在保持固定BPE词汇框架的前提下,使同一词语在训练过程中产生多种不同的切分形式。在训练阶段使用BPE-dropout,推理阶段采用标准BPE,可使翻译性能相比传统BPE提升最高达3 BLEU,相比先前的子词正则化方法提升最高达0.9 BLEU。

BPE-Dropout:简单而有效的子词正则化 | 最新论文 | HyperAI超神经