2 个月前

无监督边界感知语言模型预训练用于中文序列标注

Peijie Jiang; Dingkun Long; Yanzhao Zhang; Pengjun Xie; Meishan Zhang; Min Zhang

摘要

边界信息对于各种中文语言处理任务至关重要，例如分词、词性标注和命名实体识别。以往的研究通常依赖高质量的外部词典，其中词典条目可以提供明确的边界信息。然而，为了保证词典的质量，往往需要大量的人力投入，这一点在以往的研究中常常被忽视。在本研究中，我们建议使用无监督统计边界信息，并提出了一种架构，将该信息直接编码到预训练语言模型中，从而产生了边界感知BERT（BABERT）。我们将BABERT应用于中文序列标注任务的特征诱导。实验结果表明，在十个中文序列标注基准数据集上，BABERT能够为所有数据集带来一致的性能提升。此外，我们的方法可以补充先前的有监督词典探索，在与外部词典信息结合时可进一步提高性能。