MGTAB : Un Benchmark de Détection de Comptes Twitter Basé sur un Graphe Multi-Relationnel

Le développement des méthodes de détection de la position des utilisateurs sur les réseaux sociaux et de détection des bots repose largement sur des benchmarks à grande échelle et de haute qualité. Cependant, en plus d'une qualité d'annotation faible, les benchmarks existants présentent généralement des relations utilisateur incomplètes, ce qui freine les recherches basées sur les graphes pour la détection des comptes. Pour remédier à ces problèmes, nous proposons un Benchmark de Détection de Comptes Twitter Basé sur un Graphe Multi-Relationnel (MGTAB), le premier benchmark standardisé basé sur les graphes pour la détection des comptes. À notre connaissance, MGTAB a été construit à partir des données originales les plus importantes du domaine, avec plus de 1,55 million d'utilisateurs et 130 millions de tweets. MGTAB contient 10 199 utilisateurs annotés par des experts et 7 types de relations, garantissant une annotation de haute qualité et des relations diversifiées. Dans MGTAB, nous avons extrait les 20 caractéristiques propriétaires d'utilisateur ayant le plus grand gain d'information ainsi que les caractéristiques des tweets d'utilisateur comme caractéristiques d'utilisateur. De plus, nous avons effectué une évaluation approfondie de MGTAB et d'autres jeux de données publics. Nos expériences ont montré que les approches basées sur les graphes sont généralement plus efficaces que celles basées sur les caractéristiques et performantes lorsqu'on introduit plusieurs relations. En analysant les résultats expérimentaux, nous identifions des approches efficaces pour la détection des comptes et fournissons des orientations potentielles pour la recherche future dans ce domaine. Notre benchmark et nos procédures d'évaluation standardisées sont librement disponibles à l'adresse suivante : https://github.com/GraphDetec/MGTAB.