17 天前

RICo:Reddit 意识形态社区

{Adan Ernesto Vela, Kamalakkannan Ravi}
摘要

本研究的主要目标是全面理解不同社群中语言使用与意识形态叙事之间的关系。我们特别聚焦于运用自然语言处理(Natural Language Processing, NLP)技术,识别与目标暴力相关联的非规范性社群所使用的隐晦或暗示性语言背后潜藏的叙事结构。以往的研究主要通过问卷调查、用户研究以及少量基于文本内容分析的方法来识别意识形态归属,但这些方法仍依赖于人工标注(label curation)。先前的工作尝试通过意识形态类别的Reddit子版块(如r/Liberal和r/Conservative分别代表自由派与保守派)对这些子版块中分享的文章进行标注,依据其预设的意识形态立场,然而此类方法受限于数据规模较小。在前人研究的基础上,我们进一步利用子版块的意识形态立场对所分享的文章进行分类。除了传统的自由派与保守派类别外,我们新增了一个名为“受限”(Restricted)的新类别,涵盖那些发布于受限、私有化或已被封禁的子版块中的文本文章,例如r/TheDonald。该“受限”类别包括所有与暴力相关的内容,无论其意识形态倾向为自由派或保守派。此外,我们还通过自认身份的子版块(如r/progressive用于自由派,r/askaconservative用于保守派)扩充数据集,从而提升代表性与多样性。最终,我们构建了一个包含377,144篇文本文章的扩展数据集,其中包括72,488篇自由派文章、79,573篇保守派文章以及225,083篇“受限”类文章。本研究旨在分析不同意识形态社群之间的语言差异,探究关键词在判断文章立场中的相关性,尤其关注在未见样本(共922,522篇文本文章)中的适用性。同时,我们深入剖析极端化社群的语言特征,开展系统性分析与结果解读,以揭示其意识形态表达的深层机制与传播模式。