
摘要
上下文特征在中文分词(CWS)任务中始终扮演着重要角色。词性信息作为其中一种上下文特征,已被证明在多种传统的基于字符的分词器中具有显著效果。然而,在近年来的神经网络模型中,这一特征却受到较少关注,且如何将来自不同词性度量方法的词性信息有效整合到现有神经框架中,仍是一个具有挑战性的问题。为此,本文提出一种新型神经框架——WMSeg,该框架利用记忆网络机制,将词性信息与多种主流的编码器-解码器组合相结合,用于中文分词。在五个基准数据集上的实验结果表明,记忆机制能够有效建模词性信息,显著提升神经分词器的性能,使WMSeg在所有数据集上均达到当前最优水平。进一步的实验与分析还验证了所提出框架对不同词性度量方法的鲁棒性,以及词性信息在跨领域场景下的高效表现。