
要約
ボット、すなわちソフトウェアによって制御されるが人間ユーザーを装う自動化されたソーシャルメディアアカウントの検出問題は、強い影響を及ぼします。例えば、ボットはオンラインディスコースを歪めることで政治選挙に影響を与えたり、株式市場を操作したり、反ワクチン陰謀論を広めることで健康危機を引き起こしたりしています。これまで提案されてきたほとんどの手法は、大量のソーシャルメディア投稿を処理し、ネットワーク構造や時間的動態、感情分析などの情報を活用して、アカウントレベルでのボット検出を行っています。本稿では、コンテンツとメタデータの両方を利用し、ツイートレベルでのボット検出を行うコンテキスト依存の長短期記憶(LSTM)アーキテクチャに基づく深層ニューラルネットワークを提案します。ユーザーのメタデータから抽出したコンテキスト特徴量は、ツイート本文を処理するLSTM深層ネットワークへの補助入力として供給されます。また、我々が提案する別の貢献点は、最小限のラベル付きデータ(洗練されたTwitterボットの約3,000件の例)から深層ネットワークの学習に適した大規模なラベル付きデータセットを生成するための合成少数クラス過剰サンプリング技術です。我々のアーキテクチャは単一のツイートからも高い分類精度(AUC > 96%)でボットと人間を区別できることが示されています。同様のアーキテクチャを使用してアカウントレベルでのボット検出を行い、ほぼ完璧な分類精度(AUC > 99%)が達成されました。我々のシステムは最小限かつ解釈可能な特徴量セットを利用しつつ少量の学習データで高い性能を発揮し、既存の最先端手法を超える結果を得ています。