要約
オンラインコミュニティ内における言語の使用と進化の理解を長期的な目的として、本研究では自然言語処理(NLP)技術を用いて、テキスト記事の思想的傾向(保守的または自由主義的)に応じて分類する手法の応用を検討する。まず、ソーシャルメディアサイト「Reddit」のオンラインコミュニティ r/Liberal および r/Conservative に投稿されたテキスト記事から、バランスの取れたコーパスを収集した。このコーパスを基に、3種類の分類モデルを構築・適用した。ベースラインとして、各記事のウェブドメインを考慮するベイズモデルを採用し、この手法ではコンテンツとは独立して分類を行う。次に、単語頻度-逆文書頻度(TF-IDF)特徴量を用いたサポートベクターマシン(SVM)モデルを開発した。このアプローチは、カウントベースの特徴空間を活用して、言語の差異を強調し、記事間の区別を図る。最後に、文脈に基づくトランスフォーマー(RoBERTa)モデルを評価し、ベースラインモデルおよびSVMモデルと比較してその性能の低さについて考察した。