2 个月前
MGTAB:基于多关系图的Twitter账户检测基准
Shuhao Shi; Kai Qiao; Jian Chen; Shuai Yang; Jie Yang; Baojie Song; Linyuan Wang; Bin Yan

摘要
社交媒体用户立场检测和机器人检测方法的开发严重依赖于大规模和高质量的基准数据集。然而,现有的基准数据集除了注释质量较低外,通常还存在用户关系不完整的问题,这抑制了基于图的账户检测研究的发展。为了解决这些问题,我们提出了一种多关系图谱基础的推特账户检测基准(MGTAB),这是首个标准化的基于图的账户检测基准。据我们所知,MGTAB 是基于该领域最大的原始数据构建的,包含超过 155 万用户和 1.3 亿条推文。MGTAB 包含了 10,199 名专家注释的用户以及 7 种类型的关系,确保了高质量的注释和多样化的关系。在 MGTAB 中,我们提取了信息增益最大的 20 个用户属性特征和用户推文特征作为用户特征。此外,我们对 MGTAB 及其他公开数据集进行了全面评估。实验结果表明,基于图的方法通常比基于特征的方法更为有效,并且在引入多种关系时表现更好。通过分析实验结果,我们识别出了有效的账户检测方法,并提供了该领域的潜在未来研究方向。我们的基准数据集和标准化评估流程可免费获取:https://github.com/GraphDetec/MGTAB。