1 个月前

“说谎者,说谎者,裤子着火了”:一个用于虚假新闻检测的新基准数据集

William Yang Wang
“说谎者,说谎者,裤子着火了”:一个用于虚假新闻检测的新基准数据集
摘要

自动假新闻检测是欺骗检测中的一个具有挑战性的问题,它在现实世界中具有巨大的政治和社会影响。然而,由于缺乏带有标签的基准数据集,统计方法在打击假新闻方面受到了极大的限制。本文介绍了“liar”:一个用于假新闻检测的新公开数据集。我们从PolitiFact.com收集了长达十年的12.8万条人工标注的短语陈述,这些陈述涵盖了各种背景,并为每个案例提供了详细的分析报告和指向原始文件的链接。该数据集也可用于事实核查研究。值得注意的是,这个新的数据集比之前最大规模的类似类型公开假新闻数据集大了一个数量级。通过实证研究,我们探讨了基于表层语言模式的自动假新闻检测方法。为此,我们设计了一种新颖的混合卷积神经网络(Hybrid Convolutional Neural Network),将元数据与文本进行整合。研究表明,这种混合方法可以提升仅依赖文本的深度学习模型的效果。

“说谎者,说谎者,裤子着火了”:一个用于虚假新闻检测的新基准数据集 | 最新论文 | HyperAI超神经