在 Discord 上讨论

1 年前

多任务学习

自然语言处理

Lingjia Deng Sz-Rung Shiang Jonathan May Alexander Spangher

摘要

随着标注模式的不断演进，即使细微的差异也可能导致遵循旧标注模式的数据集变得无法使用。这阻碍了研究人员在已有标注工作基础上进一步开展研究，尤其在话语分析领域，导致大量规模较小且类别分布极不均衡的数据集长期存在。本文提出，通过多任务学习方法，可有效整合来自相似及不同领域的多个话语数据集，从而提升话语分类性能。在近期发布且规模较大的NewsDiscourse数据集上，我们的方法相较当前最优基准模型，Micro F1分数提升了4.9%，部分原因在于跨任务标签相关性的利用，显著改善了低频类别的分类表现。此外，本文还系统回顾了自然语言处理领域中针对资源匮乏问题提出的多种技术方案，并验证表明，在本研究设定下，现有各类方法均无法进一步提升分类准确率。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

在 Discord 上讨论

1 年前

多任务学习

自然语言处理

Lingjia Deng Sz-Rung Shiang Jonathan May Alexander Spangher

摘要

随着标注模式的不断演进，即使细微的差异也可能导致遵循旧标注模式的数据集变得无法使用。这阻碍了研究人员在已有标注工作基础上进一步开展研究，尤其在话语分析领域，导致大量规模较小且类别分布极不均衡的数据集长期存在。本文提出，通过多任务学习方法，可有效整合来自相似及不同领域的多个话语数据集，从而提升话语分类性能。在近期发布且规模较大的NewsDiscourse数据集上，我们的方法相较当前最优基准模型，Micro F1分数提升了4.9%，部分原因在于跨任务标签相关性的利用，显著改善了低频类别的分类表现。此外，本文还系统回顾了自然语言处理领域中针对资源匮乏问题提出的多种技术方案，并验证表明，在本研究设定下，现有各类方法均无法进一步提升分类准确率。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供