Embeddings-basierte Clustering für zielgerichtete Haltungen: Der Fall der polarisierten Türkei

Am 24. Juni 2018 führte die Türkei eine hochbedeutsame Wahl durch, bei der das türkische Volk seinen Präsidenten und das Parlament erstmals im Rahmen eines neuen präsidentiellen Systems wählte. Während des Wahlzeitraums verbreiteten die türkischen Bürger ihre politischen Ansichten umfassend über Twitter. Ein zentrales Merkmal der politischen Polarisierung innerhalb der Wählerschaft war die Unterstützung oder Opposition gegenüber einer Wiederwahl von Recep Tayyip Erdoğan. In diesem Artikel präsentieren wir eine unsupervisierte Methode zur zielgerichteten Standpunkt-Detektion in polarisierten Kontexten, speziell im Bereich der türkischen Politik, die eine Genauigkeit von 90 % bei der Identifizierung von Nutzerpositionen erreicht und dabei eine Rückrufquote von über 80 % beibehält. Die Methode basiert auf der Darstellung von Nutzern im Embedding-Raum mittels des multilingualen universellen Satz-Encoders von Google, der auf einem konvolutionellen neuronalen Netzwerk (CNN) basiert. Die entstehenden Repräsentationen werden anschließend in einen niedrigerdimensionalen Raum projiziert, wobei Ähnlichkeiten zwischen Nutzern berücksichtigt werden, um schließlich Cluster zu bilden. Wir zeigen die Wirksamkeit unserer Methode anhand der korrekten Gruppierung von Nutzern unterschiedlicher politischer Lager hinsichtlich mehrerer Ziele, darunter politische Persönlichkeiten, verschiedene Gruppen und Parteien. Unsere Analyse basiert auf einem umfangreichen Datensatz aus 108 Millionen türkeirelevanten Tweets sowie den Timeline-Tweets von 168.000 türkischen Nutzern, die insgesamt 213 Millionen Tweets verfasst haben. Aufgrund der resultierenden Nutzerpositionen können wir Korrelationen zwischen Themen ermitteln und die Themepolarisierung quantifizieren.