6 个月前

卷积神经网络

自然语言处理

Anh Le. Mikhail S. Burtsev

摘要

影响神经序列标注任务质量的最关键因素之一，是输入特征的选择与编码方式，其直接且显著地决定了语义与语法表征向量的丰富程度。本文提出一种深度神经网络模型，用于解决序列标注任务中的特定问题——命名实体识别（Named Entity Recognition, NER）。该模型由三个子网络构成，旨在充分挖掘字符级特征、大小写特征以及词级上下文表征信息。为验证模型在不同语言上的泛化能力，我们在俄语、越南语、英语和汉语四种语言上进行了评估，分别在Gareev数据集、VLSP-2016、CoNLL-2003和MSRA数据集上取得了当前最优的F-Measure得分，分别为91.10%、94.43%、91.22%和92.95%。此外，该模型在仅使用100个样本作为训练集和开发集的情况下，仍能取得约70%的F1分数，表现出优异的小样本学习能力。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

自然语言处理

Anh Le. Mikhail S. Burtsev

摘要

影响神经序列标注任务质量的最关键因素之一，是输入特征的选择与编码方式，其直接且显著地决定了语义与语法表征向量的丰富程度。本文提出一种深度神经网络模型，用于解决序列标注任务中的特定问题——命名实体识别（Named Entity Recognition, NER）。该模型由三个子网络构成，旨在充分挖掘字符级特征、大小写特征以及词级上下文表征信息。为验证模型在不同语言上的泛化能力，我们在俄语、越南语、英语和汉语四种语言上进行了评估，分别在Gareev数据集、VLSP-2016、CoNLL-2003和MSRA数据集上取得了当前最优的F-Measure得分，分别为91.10%、94.43%、91.22%和92.95%。此外，该模型在仅使用100个样本作为训练集和开发集的情况下，仍能取得约70%的F1分数，表现出优异的小样本学习能力。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供