
摘要
如今,人们更倾向于通过社交媒体获取最新资讯,因为其成本低廉、获取便捷且传播迅速。然而,社交媒体也容易传播虚假或不可靠的低质量新闻,这些内容往往故意包含不实信息。虚假新闻的蔓延可能对个人及社会造成负面影响。鉴于该问题的严重性,研究人员致力于识别虚假新闻可能表现出的模式与特征,以构建能够在发布前自动检测虚假新闻的系统。本文介绍了虚假新闻挑战赛第一阶段(Fake News Challenge Stage #1, FNC-1)数据集,并综述了利用该数据集开展虚假新闻检测系统构建的多项竞赛性研究工作。所提出的模型基于FNC-1数据集进行了评估。由于该数据集被公认为全球范围内具有挑战性的开放性问题,因此其研究具有重要意义。本系统的处理流程包括:对标题(headline)和正文(body text)两列文本分别采用不同的自然语言处理技术进行分析;随后,利用“肘部截断法”(elbow truncated method)对提取出的特征进行降维;再通过软余弦相似度(soft cosine similarity)方法计算每对样本之间的相似性;最后,将生成的新特征输入卷积神经网络(CNN)与深度神经网络(DNN)等深度学习模型中进行分类。实验结果表明,该系统在除“不同意”(disagree)类别外的所有类别上均实现了较高的分类准确率。整体准确率最高可达84.6%,在同类研究中位列第二,显示出良好的检测性能与竞争力。