
摘要
检测机器人账户(由软件控制但伪装成人类用户的自动化社交媒体账号)的问题具有重要的影响。例如,机器人账户曾被用于通过扭曲在线讨论来影响政治选举、操纵股市或推动反疫苗阴谋论,导致健康疫情的爆发。目前提出的大多数技术都是在账户层面进行机器人检测,通过处理大量社交媒体帖子,并利用网络结构、时间动态、情感分析等方面的信息。本文中,我们提出了一种基于上下文长短时记忆(LSTM)架构的深度神经网络,该网络利用内容和元数据在推文层面检测机器人:从用户元数据中提取上下文特征,并将其作为辅助输入提供给处理推文文本的LSTM深度网络。我们还提出了一种基于合成少数类过采样的技术,可以从少量标记数据(大约3,000个复杂的Twitter机器人示例)生成一个大规模的标记数据集,适用于深度网络训练。我们证明了,仅凭一条推文,我们的架构就能实现高分类准确性(AUC > 96%),有效区分机器人和人类用户。我们将相同的架构应用于账户层面的机器人检测,实现了接近完美的分类准确性(AUC > 99%)。我们的系统不仅超越了先前的技术水平,而且在利用少量且可解释的特征集的同时,仅需最少的训练数据。