要約
ソーシャルメディアのデータは、高品質と低品質のコンテンツが混在している。特に頻繁に研究対象となる低品質コンテンツの一つとしてスパムが挙げられる。従来の研究では、スパムは文脈に依存しない(文脈不変)ものと仮定しているが、本研究では異なるTwitterデータセットを用いて、文脈に依存するスパムが存在し、識別可能であることを示した。その後、コンテンツベースの特徴のみを用いて、従来の機械学習モデル複数種類と、事前学習済みBERT言語モデルを活用して文脈的特徴を捉えるニューラルネットワークモデルを比較した。その結果、ニューラルネットワークモデルがF1スコア0.91を達成し、従来モデルを上回った。スパムのトレーニングデータセットはしばしば不均衡であることが知られており、本研究ではその不均衡の影響を検討した。その結果、極端な不均衡状況では単純なBag-of-Wordsモデルが最も優れた性能を示したが、他のドメインの言語モデルを用いて微調整(fine-tuning)を行うニューラルモデルはF1スコアを著しく向上させた。ただし、ドメイン特化型のニューラルモデルに比べてはその性能は達していない。これは、データセットの不均衡度、低リソース環境下でのデータ量、および文脈依存スパムと従来型スパムの相対的な出現頻度に応じて、最適な戦略が異なる可能性を示唆している。最後に、本研究で用いたデータセットを研究コミュニティの皆様に公開する。