
摘要
社交媒体提供了丰富的有价值原始数据来源,然而非正式的书写方式很快就会成为许多自然语言处理(NLP)任务的瓶颈。现成的工具通常是在正式文本上训练的,无法明确处理在线短帖中的噪声。此外,频繁出现的语言变体多样性也带来了若干挑战,即使对于人类来说,也可能难以理解这些帖子的意义,尤其是在它们包含俚语和缩写时。文本规范化旨在将在线用户生成的文本转换为标准形式。目前的文本规范化系统依赖于字符串或语音相似性和分类模型,这些模型以局部方式工作。我们认为处理上下文信息对于这一任务至关重要,并引入了一种基于混合词-字符注意力机制的社会媒体文本规范化编码器-解码器模型,该模型可以作为NLP应用的预处理步骤,以适应社交媒体中的噪声文本。我们的字符组件是在合成对抗样本上训练的,这些样本旨在捕捉在线用户生成文本中常见的错误。实验结果表明,我们的模型超越了专为文本规范化设计的神经架构,并达到了与相关领域的最先进工作相当的性能。