HyperAIHyperAI
il y a 2 mois

Réseaux Neuronaux Profonds pour la Détection de Bots

Sneha Kudugunta; Emilio Ferrara
Réseaux Neuronaux Profonds pour la Détection de Bots
Résumé

Le problème de la détection des bots, des comptes automatisés sur les réseaux sociaux gérés par des logiciels mais se faisant passer pour des utilisateurs humains, a de fortes implications. Par exemple, les bots ont été utilisés pour influencer les élections politiques en déformant le discours en ligne, pour manipuler le marché boursier ou pour propager des théories du complot antivaccination qui ont entraîné des épidémies de santé. La plupart des techniques proposées jusqu'à présent détectent les bots au niveau du compte, en traitant une grande quantité de publications sur les réseaux sociaux et en exploitant des informations issues de la structure du réseau, de la dynamique temporelle, de l'analyse de sentiment, etc.Dans cet article, nous proposons un réseau neuronal profond basé sur une architecture de mémoire à court et long terme contextuelle (LSTM) qui exploite à la fois le contenu et les métadonnées pour détecter les bots au niveau du tweet : des caractéristiques contextuelles sont extraites des métadonnées utilisateur et alimentées comme entrée aux réseaux neuronaux profonds LSTM traitant le texte du tweet.Une autre contribution que nous apportons est la proposition d'une technique basée sur le sur-échantillonnage synthétique de minorités pour générer un grand ensemble de données étiquetées, adapté à l'entraînement de réseaux neuronaux profonds, à partir d'un nombre minimal de données étiquetées (environ 3 000 exemples de bots Twitter sophistiqués). Nous démontrons que notre architecture peut atteindre une précision élevée en classification (AUC > 96 %) pour séparer les bots des humains à partir d'un seul tweet.Nous appliquons la même architecture à la détection des bots au niveau du compte, obtenant une précision presque parfaite en classification (AUC > 99 %). Notre système surpassent l'état actuel de l'art tout en exploitant un petit ensemble de caractéristiques interprétables et nécessitant un minimum de données d'entraînement.