
摘要
假新闻如今已成为一个亟待解决的问题,鉴于其最近作为高质量新闻业和知情公众讨论的潜在威胁而迅速增加。2017年组织了“假新闻挑战”(FNC-1),旨在鼓励开发基于机器学习的立场检测分类系统(即识别特定新闻文章是否同意、反对、讨论或与特定新闻标题无关),从而帮助检测和分析可能存在的假新闻实例。本文提出了一种新的方法来解决这一立场检测问题,该方法结合了字符串相似性特征与一种深度神经架构,后者借鉴了在高效文本表示、文档分类和自然语言推理领域中先前提出的理念。具体而言,我们使用双向循环神经网络(Bi-RNN),结合时间/序列维度上的最大池化和神经注意力机制,分别表示(i)标题,(ii)新闻文章的前两句话,以及(iii)整篇新闻文章。这些表示随后被组合/比较,并补充以受其他FNC-1方法启发的相似性特征,最终传递给一个预测文章对标题立场的层。此外,我们还探讨了外部信息源的使用,特别是最初为训练和评估自然语言推理方法而设计的大规模句对数据集,以预训练神经网络架构中的特定组件(例如用于编码句子的RNN)。所获得的结果证明了所提方法的有效性,并表明我们的模型在考虑预训练及神经表示与相似性特征相结合的情况下,略微优于之前的最先进水平。