HyperAIHyperAI
vor 12 Tagen

Ein halbüberwachtes Modell zur Überprüfung von Gerüchten im Persischen basierend auf Inhaltsinformationen

{Arash Sharifi, Mohammad-Reza Feizi-Derakhshi, Zoleikha Jahanbakhsh-Nagadeh}
Abstract

Rumoren stellen einen kollektiven Versuch dar, eine vage, aber attraktive Situation mittels der Kraft der Sprache zu interpretieren. In sozialen Netzwerken weisen Falschinformationen signifikant unterschiedliche kontextuelle Merkmale gegenüber wahren Rumoren auf den Ebenen der Lexik, Syntax und Semantik auf. Daher präsentiert diese Studie das BERT-SAWS-Modell für semi-supervised Lernen zur frühen Verifizierung persischer Rumoren, indem es inhaltsbasierte und kontextbasierte Merkmale aus drei Perspektiven untersucht: kontextuelle Wort-Embeddings (CWE), Sprachakte und Schreibstil (WS). Das Modell basiert auf der Ladung eines vortrainierten Bidirektionalen Encoder-Representations aus Transformers (BERT) als unsupervisiertes Sprachrepräsentationsmodell, dessen Feinabstimmung anhand eines kleinen persischen Rumoren-Datensatzes erfolgt, gefolgt von der Kombination mit einem überwachten Lernmodell zur Erzeugung einer verfeinerten Textrepräsentation des Rumoreninhalts. Diese Textrepräsentation ermöglicht es dem Modell, die Sprache von Rumoren besser zu verstehen und somit effektiver als Baseline-Modelle zu verifizieren, wobei zwei Gründe entscheidend sind: (i) frühe Verifizierung durch Fokussierung auf inhalts- und kontextbasierte Merkmale des Ursprungsrumorens; (ii) Überwindung des Problems der begrenzten Datensatzgröße bei tiefen neuronalen Netzen durch die Nutzung eines vortrainierten BERT-Modells, dessen Feinabstimmung mittels des persischen Rumoren-Datensatzes erfolgt, sowie die Integration von Merkmalen auf Basis von Sprachakten und Schreibstil. Die empirischen Ergebnisse der Anwendung des Modells auf Twitter- und Telegram-Datensätze zeigen, dass BERT-SAWS die Leistung des Klassifizierers um 2 % auf 18 % steigern kann. Dies belegt, dass Sprachakte und Schreibstil gemeinsam mit semantischen kontextuellen Vektoren hilfreiche Merkmale für die Aufgabe der Rumorenverifizierung darstellen.

Ein halbüberwachtes Modell zur Überprüfung von Gerüchten im Persischen basierend auf Inhaltsinformationen | Neueste Forschungsarbeiten | HyperAI