MCFEND 数据集是香港浸会大学、香港中文大学等机构联合构建的一个多源中文虚假新闻检测基准数据集。
各种网络来源的假新闻盛行对公众产生了重大影响。现有的中国假新闻检测数据集仅限于仅来自微博的新闻。然而,来自多个来源的假新闻在各个方面表现出多样性,包括其内容和社会背景。纯粹针对单一新闻源训练的方法很难适用于现实场景。研究团队的试点实验表明,当测试数据更改为多源新闻时,从大型中国假新闻检测数据集 Weibo-21 中学习的最先进方法的 F1 分数从 0.943 显着下降到 0.470 数据,未能识别超过三分之一的多源假新闻。
为了解决这一限制,研究团队构建了第一个用于中国假新闻检测的多源基准数据集,称为 MCFEND,它由研究团队从社交平台、消息应用程序和传统在线新闻媒体等不同来源收集的新闻组成。该数据集收集了来自社交平台、即时通讯应用和传统在线新闻媒体等多样化来源的新闻,共计 23,974 条,均经过 14 家国际权威事实核查机构的核实。新闻内容涵盖了 2015 年 3 月至 2023 年 3 月期间,包括文本、图片和元数据等多模态信息,以及帖子、评论、表情符号、用户档案等社交上下文数据。 MCFEND 作为基准数据集,旨在推进现实场景中的中国假新闻检测方法。
做种 1
下载中 0
已完成 159
总下载 500