Klassifizierung der ideologischen Ausrichtung von nutzerbeigefügten Texten in sozialen Medien
Mit dem langfristigen Ziel, zu verstehen, wie Sprache innerhalb onlineer Gemeinschaften genutzt und weiterentwickelt wird, untersucht diese Arbeit die Anwendung von Techniken des Natural Language Processing (NLP) zur Klassifizierung von Textartikeln nach ihrer ideologischen Ausrichtung (d. h. konservativ oder liberal). Zunächst sammeln wir eine ausgewogene Korpus von Textartikeln, die auf den Online-Communities r/Liberal und r/Conservative der sozialen Medienplattform Reddit veröffentlicht wurden. Anhand dieses Korpus entwickeln und evaluieren wir drei Klassifizierer. Der Baseline-Klassifizierer ist ein Bayes-Modell, das die Web-Domain jedes Textartikels berücksichtigt; die Klassifizierung ist somit unabhängig vom Inhalt. Als nächstes entwickeln wir ein Support-Vector-Machine-(SVM)-Modell mit Term-Frequency-Inverse-Document-Frequency-(TF-IDF)-Merkmalsvektoren; dieser Ansatz hebt sprachliche Unterschiede durch einen zählbasierten Merkmalsraum hervor, um Textartikel voneinander zu unterscheiden. Schließlich evaluieren wir ein kontextbasiertes Transformer-Modell (RoBERTa) und diskutieren dessen unterdurchschnittliche Leistung im Vergleich zum Baseline- und SVM-Modell.