8 个月前

自然语言处理

Yan Song Yuanhe Tian Yonggang Wang Fei Xia Tong Zhang

摘要

上下文特征在中文分词（CWS）任务中始终扮演着重要角色。词性信息作为其中一种上下文特征，已被证明在多种传统的基于字符的分词器中具有显著效果。然而，在近年来的神经网络模型中，这一特征却受到较少关注，且如何将来自不同词性度量方法的词性信息有效整合到现有神经框架中，仍是一个具有挑战性的问题。为此，本文提出一种新型神经框架——WMSeg，该框架利用记忆网络机制，将词性信息与多种主流的编码器-解码器组合相结合，用于中文分词。在五个基准数据集上的实验结果表明，记忆机制能够有效建模词性信息，显著提升神经分词器的性能，使WMSeg在所有数据集上均达到当前最优水平。进一步的实验与分析还验证了所提出框架对不同词性度量方法的鲁棒性，以及词性信息在跨领域场景下的高效表现。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

自然语言处理

Yan Song Yuanhe Tian Yonggang Wang Fei Xia Tong Zhang

摘要

上下文特征在中文分词（CWS）任务中始终扮演着重要角色。词性信息作为其中一种上下文特征，已被证明在多种传统的基于字符的分词器中具有显著效果。然而，在近年来的神经网络模型中，这一特征却受到较少关注，且如何将来自不同词性度量方法的词性信息有效整合到现有神经框架中，仍是一个具有挑战性的问题。为此，本文提出一种新型神经框架——WMSeg，该框架利用记忆网络机制，将词性信息与多种主流的编码器-解码器组合相结合，用于中文分词。在五个基准数据集上的实验结果表明，记忆机制能够有效建模词性信息，显著提升神经分词器的性能，使WMSeg在所有数据集上均达到当前最优水平。进一步的实验与分析还验证了所提出框架对不同词性度量方法的鲁棒性，以及词性信息在跨领域场景下的高效表现。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供