2ヶ月前
MGTAB: 多関係グラフを基にしたTwitterアカウント検出ベンチマーク
Shuhao Shi; Kai Qiao; Jian Chen; Shuai Yang; Jie Yang; Baojie Song; Linyuan Wang; Bin Yan

要約
ソーシャルメディアのユーザー立場検出およびボット検出方法の開発は、大規模かつ高品質なベンチマークに大きく依存しています。しかし、既存のベンチマークは低品質なアノテーションだけでなく、ユーザー間の関係が不完全であることが一般的で、グラフベースのアカウント検出研究を抑制しています。これらの問題に対処するため、私たちはMulti-Relational Graph-Based Twitter Account Detection Benchmark(MGTAB)という、アカウント検出用の最初の標準化されたグラフベースのベンチマークを提案します。私たちが知る限り、MGTABはこの分野で最大規模の元データに基づいて構築されており、155万以上のユーザーと1億3000万以上のツイートを含んでいます。MGTABには10,199人の専門家によるアノテーションを受けたユーザーと7種類の関係が含まれており、高品質なアノテーションと多様な関係を確保しています。MGTABでは、情報利得が最も高い20つのユーザープロパティ特徴量とユーザーツイート特徴量を抽出し、ユーザー特徴量として使用しました。さらに、私たちはMGTABと他の公開データセットについて詳細な評価を行いました。実験結果から、グラフベースの手法は一般的に特徴量ベースの手法よりも効果的であり、複数の関係を導入することでより良い性能を示すことがわかりました。実験結果を分析することで、アカウント検出における効果的な手法を特定し、この分野での将来の研究方向性を提供しています。私たちのベンチマークと標準化された評価手順は以下のURLで自由に利用可能です: https://github.com/GraphDetec/MGTAB.