8 个月前

自然语言处理

自然语言处理

Ismini Lourentzou Kabir Manghnani ChengXiang Zhai

摘要

社交媒体提供了丰富的有价值原始数据来源，然而非正式的书写方式很快就会成为许多自然语言处理（NLP）任务的瓶颈。现成的工具通常是在正式文本上训练的，无法明确处理在线短帖中的噪声。此外，频繁出现的语言变体多样性也带来了若干挑战，即使对于人类来说，也可能难以理解这些帖子的意义，尤其是在它们包含俚语和缩写时。文本规范化旨在将在线用户生成的文本转换为标准形式。目前的文本规范化系统依赖于字符串或语音相似性和分类模型，这些模型以局部方式工作。我们认为处理上下文信息对于这一任务至关重要，并引入了一种基于混合词-字符注意力机制的社会媒体文本规范化编码器-解码器模型，该模型可以作为NLP应用的预处理步骤，以适应社交媒体中的噪声文本。我们的字符组件是在合成对抗样本上训练的，这些样本旨在捕捉在线用户生成文本中常见的错误。实验结果表明，我们的模型超越了专为文本规范化设计的神经架构，并达到了与相关领域的最先进工作相当的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

自然语言处理

自然语言处理

Ismini Lourentzou Kabir Manghnani ChengXiang Zhai

摘要

社交媒体提供了丰富的有价值原始数据来源，然而非正式的书写方式很快就会成为许多自然语言处理（NLP）任务的瓶颈。现成的工具通常是在正式文本上训练的，无法明确处理在线短帖中的噪声。此外，频繁出现的语言变体多样性也带来了若干挑战，即使对于人类来说，也可能难以理解这些帖子的意义，尤其是在它们包含俚语和缩写时。文本规范化旨在将在线用户生成的文本转换为标准形式。目前的文本规范化系统依赖于字符串或语音相似性和分类模型，这些模型以局部方式工作。我们认为处理上下文信息对于这一任务至关重要，并引入了一种基于混合词-字符注意力机制的社会媒体文本规范化编码器-解码器模型，该模型可以作为NLP应用的预处理步骤，以适应社交媒体中的噪声文本。我们的字符组件是在合成对抗样本上训练的，这些样本旨在捕捉在线用户生成文本中常见的错误。实验结果表明，我们的模型超越了专为文本规范化设计的神经架构，并达到了与相关领域的最先进工作相当的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供