2 个月前

无监督边界感知语言模型预训练用于中文序列标注

Peijie Jiang; Dingkun Long; Yanzhao Zhang; Pengjun Xie; Meishan Zhang; Min Zhang
无监督边界感知语言模型预训练用于中文序列标注
摘要

边界信息对于各种中文语言处理任务至关重要,例如分词、词性标注和命名实体识别。以往的研究通常依赖高质量的外部词典,其中词典条目可以提供明确的边界信息。然而,为了保证词典的质量,往往需要大量的人力投入,这一点在以往的研究中常常被忽视。在本研究中,我们建议使用无监督统计边界信息,并提出了一种架构,将该信息直接编码到预训练语言模型中,从而产生了边界感知BERT(BABERT)。我们将BABERT应用于中文序列标注任务的特征诱导。实验结果表明,在十个中文序列标注基准数据集上,BABERT能够为所有数据集带来一致的性能提升。此外,我们的方法可以补充先前的有监督词典探索,在与外部词典信息结合时可进一步提高性能。