HyperAIHyperAI
vor 17 Tagen

RICo: Reddit ideologische Communities

{Adan Ernesto Vela, Kamalakkannan Ravi}
Abstract

Das Hauptziel unserer Forschung besteht darin, ein umfassendes Verständnis der Beziehung zwischen Sprachgebrauch innerhalb unterschiedlicher Gemeinschaften und der Abgrenzung ideologischer Erzählungen zu erlangen. Wir konzentrieren uns speziell auf den Einsatz von Techniken des Natural Language Processing (NLP), um zugrundeliegende Erzählstrukturen in kodierter oder angedeuteter Sprache zu identifizieren, die von nicht-normativen Gemeinschaften verwendet wird, die mit gezielter Gewalt assoziiert sind. Frühere Studien haben die Erkennung ideologischer Zugehörigkeit über Umfragen, Nutzerstudien und eine begrenzte Anzahl an Textartikeln untersucht, wobei letztere weiterhin eine manuelle Label-Kurierung erfordern. Frühere Ansätze zur Label-Kurierung nutzten ideologische Subreddits (r/Liberal und r/Conservative für die Klassen Liberal und Konservativ), um Artikel, die auf diesen Subreddits geteilt wurden, entsprechend ihren vorgegebenen Ideologien zu kennzeichnen – dies allerdings mit einer begrenzten Datensatzgröße.Aufbauend auf diesen vorherigen Arbeiten nutzen wir die Ideologie von Subreddits, um geteilte Artikel zu kategorisieren. Neben den klassischen Kategorien „Liberal“ und „Konservativ“ führen wir eine neue Kategorie namens „Eingeschränkt“ ein, die Textartikel umfasst, die in eingeschränkten, privaten oder gesperrten Subreddits geteilt wurden, wie beispielsweise r/TheDonald. Die Klasse „Eingeschränkt“ umfasst Posts, die mit Gewalt in Verbindung stehen, unabhängig von einer konservativen oder liberalen Zugehörigkeit. Zudem erweitern wir unseren Datensatz durch Textartikel aus sich selbst als solche identifizierenden Subreddits wie r/progressive (für die liberale Klasse) und r/askaconservative (für die konservative Klasse). Dies führt zu einem erweiterten Datensatz von insgesamt 377.144 Textartikeln, bestehend aus 72.488 liberalen, 79.573 konservativen und 225.083 Artikeln der Klasse „Eingeschränkt“. Unser Ziel ist es, sprachliche Unterschiede zwischen verschiedenen ideologischen Gemeinschaften zu analysieren, die Relevanz von Schlüsselwörtern für die Klassifizierung von Artikelorientierungen zu untersuchen, insbesondere in bisher unbekannten Fällen (922.522 Textartikel), und radikalisierte Gemeinschaften zu erforschen, wobei wir eine gründliche Analyse und Interpretation der Ergebnisse durchführen.