MGTAB: Ein Mehrbeziehungs-Graphen-basierter Benchmark für die Erkennung von Twitter-Accounts

Die Entwicklung von Methoden zur Ermittlung der Nutzerhaltung in sozialen Medien und zur Erkennung von Bots hängt stark von umfangreichen und hochwertigen Benchmarks ab. Neben niedriger Annotationqualität sind jedoch die bestehenden Benchmarks im Allgemeinen mit unvollständigen Nutzerbeziehungen behaftet, was die graphbasierte Forschung zur Kontenerkennung einschränkt. Um diese Probleme zu lösen, schlagen wir den Multi-Relationales, Graphbasiertes Twitter-Kontenerkennungs-Benchmark (MGTAB) vor, den ersten standardisierten, graphbasierten Benchmark für die Kontenerkennung. Nach unserem Wissen wurde MGTAB auf Basis der größten ursprünglichen Daten im Bereich erstellt, mit über 1,55 Millionen Nutzern und 130 Millionen Tweets. MGTAB enthält 10.199 von Experten annotierte Nutzer und sieben Beziehungstypen, wodurch eine hohe Annotationqualität und vielfältige Beziehungen gewährleistet werden. In MGTAB extrahierten wir die 20 Nutzereigenschaftsmerkmale mit dem höchsten Informationsgewinn sowie Nutzertweet-Merkmale als Nutzermerkmale. Darüber hinaus führten wir eine gründliche Bewertung von MGTAB und anderen öffentlichen Datensätzen durch. Unsere Experimente zeigten, dass graphbasierte Ansätze im Allgemeinen effektiver sind als merkmalsbasierte Ansätze und sich verbessern, wenn mehrere Beziehungen eingeführt werden. Durch die Analyse der Experimentsergebnisse identifizieren wir effektive Ansätze für die Kontenerkennung und geben potentielle zukünftige Forschungsrichtungen in diesem Bereich an. Unser Benchmark und unsere standardisierten Evaluationsverfahren sind frei verfügbar unter: https://github.com/GraphDetec/MGTAB.