2 个月前

ZEN:基于N-gram表示的预训练中文文本编码器增强方法

Shizhe Diao; Jiaxin Bai; Yan Song; Tong Zhang; Yonggang Wang
ZEN:基于N-gram表示的预训练中文文本编码器增强方法
摘要

文本编码器的预训练通常将文本处理为一系列的标记,这些标记对应于较小的文本单元,例如在英语中为词片段,在汉语中为字符。这种方法忽略了较大文本粒度所携带的信息,因此编码器难以适应某些字符组合。这导致了重要语义信息的丢失,对于汉语而言尤为严重,因为汉语没有明确的词边界。本文提出了一种基于BERT的汉语(Z)文本编码器——ZEN,该编码器通过N元语法表示增强了对不同字符组合的考虑。因此,在训练过程中显式地预训练和微调了潜在的词或短语边界与字符编码器(BERT)。这样一来,ZEN融合了字符序列及其包含的词或短语的全面信息。实验结果表明,ZEN在一系列汉语自然语言处理任务上表现出有效性。我们展示了ZEN使用比其他已发表编码器更少的资源,在大多数任务上可以达到最先进的性能。此外,当ZEN在一个小型语料库上进行训练时也能获得合理的性能,这对于将预训练技术应用于数据有限的情境非常重要。ZEN的代码和预训练模型可在https://github.com/sinovation/zen 获取。

ZEN:基于N-gram表示的预训练中文文本编码器增强方法 | 最新论文 | HyperAI超神经