7 个月前

自然语言处理

多任务学习

自然语言处理

Yasumasa Onoe Greg Durrett

摘要

远距离标注数据可以用于扩大统计模型的训练规模，但这种数据通常存在噪声，且噪声程度会因不同的远距离标注技术而异。在本研究中，我们提出了一种两阶段处理此类数据的方法：首先使用学习模型对数据进行去噪，然后在经过清理和去噪的远距离数据上通过标准监督训练方法训练最终模型。我们的去噪方法由两个部分组成。第一部分是一个过滤函数，用于从远距离标注数据中剔除完全不可用的样本；第二部分是一个重标签函数，用于修复保留样本中的噪声标签。这两个组件都是基于从少量人工标注的数据集生成的合成噪声样本来训练的模型。我们在Choi等人（2018）提出的超细实体分类任务上对该方法进行了研究。我们的基线模型是在他们模型的基础上加入了预训练的ELMo表示，该模型已经达到了当前最佳性能。通过添加使用我们学习模型去噪后的远距离数据，进一步提高了基线模型的性能，优于直接在原始远距离数据或启发式去噪远距离数据上训练的模型。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

自然语言处理

多任务学习

自然语言处理

Yasumasa Onoe Greg Durrett

摘要

远距离标注数据可以用于扩大统计模型的训练规模，但这种数据通常存在噪声，且噪声程度会因不同的远距离标注技术而异。在本研究中，我们提出了一种两阶段处理此类数据的方法：首先使用学习模型对数据进行去噪，然后在经过清理和去噪的远距离数据上通过标准监督训练方法训练最终模型。我们的去噪方法由两个部分组成。第一部分是一个过滤函数，用于从远距离标注数据中剔除完全不可用的样本；第二部分是一个重标签函数，用于修复保留样本中的噪声标签。这两个组件都是基于从少量人工标注的数据集生成的合成噪声样本来训练的模型。我们在Choi等人（2018）提出的超细实体分类任务上对该方法进行了研究。我们的基线模型是在他们模型的基础上加入了预训练的ELMo表示，该模型已经达到了当前最佳性能。通过添加使用我们学习模型去噪后的远距离数据，进一步提高了基线模型的性能，优于直接在原始远距离数据或启发式去噪远距离数据上训练的模型。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

学习去噪远距离标注数据以进行实体类型识别 | 论文 | HyperAI超神经