17日前

RICo:Redditにおける思想的コミュニティ

{Adan Ernesto Vela, Kamalakkannan Ravi}
要約

本研究の主な目的は、異なるコミュニティにおける言語使用とその背後にあるイデオロギー的物語との関係を包括的に理解することである。特に、標的暴力と関連する非標準的(非ノーマル)コミュニティが用いる暗号化された、あるいは示唆的な言語表現から潜在する物語を同定するため、自然言語処理(Natural Language Processing, NLP)技術を活用する。これまでの研究では、イデオロギー的帰属の検出にアンケート調査やユーザーベースの研究、またテキスト記事の内容に基づく限定的なアプローチが用いられてきたが、いずれもラベルの手動キュレーション(label curation)を必要としていた。既存の研究では、イデオロギー的サブレッド(r/Liberal と r/Conservative)を用いて、それらのサブレッドに共有された記事をそれぞれのイデオロギーに基づいてラベル付けする手法が採用されたが、データセットの規模が限られていた。本研究では、これらの先行研究を踏まえ、サブレッドのイデオロギーを用いて共有記事を分類する。保守派・自由派の2クラスに加え、新たに「制限済み(Restricted)」というクラスを導入した。このクラスは、r/TheDonald など、制限・非公開・禁止されているサブレッドで共有された記事を対象とし、保守的・自由派のいずれの帰属にかかわらず、暴力的関連性を持つ投稿を含む。また、自由派クラスと保守派クラスのデータを拡充するため、自らを「進歩的(progressive)」と位置づける r/progressive、および「保守的(askaconservative)」と自認する r/askaconservative からの記事を追加した。これにより、合計377,144件のテキスト記事からなる拡張データセットが構築された。その構成は、自由派:72,488件、保守派:79,573件、制限済み:225,083件である。本研究の目標は、異なるイデオロギー的コミュニティにおける言語の差異を分析し、特に未観測のケース(922,522件のテキスト記事)におけるキーワードのラベル付けへの関連性を検証することである。さらに、極端化したコミュニティに焦点を当て、得られた結果に対する包括的な分析と解釈を実施する。