MGTAB: 다중 관계 그래프 기반 트위터 계정 탐지 벤치마크

소셜 미디어 사용자 입장 감지 및 봇 감지 방법의 개발은 대규모이고 고품질의 벤치마크에 크게 의존하고 있습니다. 그러나 기존 벤치마크는 주석 품질이 낮을 뿐 아니라 일반적으로 사용자 관계가 불완전하여 그래프 기반 계정 감지 연구를 제약하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 Multi-Relational Graph-Based Twitter Account Detection Benchmark (MGTAB)를 제안합니다. MGTAB는 계정 감지를 위한 첫 번째 표준화된 그래프 기반 벤치마크입니다. 우리 지식으로는, MGTAB는 해당 분야에서 가장 큰 원시 데이터를 기반으로 구축되었으며, 155만 명 이상의 사용자와 1억 3천만 건 이상의 트윗을 포함하고 있습니다. MGTAB는 10,199명의 전문가 주석 사용자와 7종류의 관계를 포함하여, 고품질의 주석과 다양화된 관계를 보장합니다. MGTAB에서는 정보 이득이 가장 큰 20개의 사용자 속성 특징과 사용자의 트윗 특징을 추출하여 사용자 특징으로 활용하였습니다. 또한, 우리는 MGTAB와 다른 공개 데이터셋에 대해 철저한 평가를 수행하였습니다. 실험 결과, 그래프 기반 접근 방식이 일반적으로 특징 기반 접근 방식보다 효과적이며, 여러 관계를 도입할 때 더 우수한 성능을 보이는 것으로 나타났습니다. 실험 결과를 분석함으로써, 우리는 계정 감지를 위한 효과적인 접근 방식을 식별하였으며, 이 분야에서 잠재적인 미래 연구 방향을 제공하였습니다. 우리의 벤치마크와 표준화된 평가 절차는 다음과 같이 무료로 이용 가능합니다: https://github.com/GraphDetec/MGTAB.