7 个月前

摘要

自然语言处理（NLP）任务经常受到手动标注数据稀缺性的限制。在社交媒体情感分析及相关任务中，研究人员因此使用了二值化表情符号和特定的标签（hashtag）作为远距离监督的形式。本文表明，通过将远距离监督扩展到更多样化的噪声标签集，模型可以学习到更丰富的表示。我们通过对包含64种常用表情符号之一的12.46亿条推文进行表情预测，使用单一预训练模型，在8个基准数据集上实现了情感、情绪和讽刺检测方面的最先进性能。我们的分析证实，我们的情感标签的多样性相较于先前的远距离监督方法带来了性能提升。

源 PDF