Ein Sprechakt-Klassifikator für persische Texte und seine Anwendung zur Identifizierung von Gerüchten

Sprachakte (SAs) sind eines der wichtigsten Gebiete der Pragmatik, die uns ein tieferes Verständnis des Geisteszustands von Menschen ermöglichen und eine beabsichtigte Sprachfunktion vermitteln. Die Kenntnis der SAs eines Textes kann bei der Analyse dieses Textes in Anwendungen zur natürlichsprachlichen Verarbeitung hilfreich sein. Diese Studie stellt eine wörterbuchbasierte statistische Methode für die Erkennung von persischen SAs vor. Die vorgeschlagene Methode klassifiziert einen Text in sieben SA-Klassen auf Grundlage von vier Kriterien: lexikalisch, syntaktisch, semantisch und oberflächliche Merkmale. WordNet wird als Werkzeug zur Extraktion von Synonymen und zum Bereichern des Merkmaldictionaries verwendet. Um die vorgeschlagene Methode zu evaluieren, nutzten wir vier Klassifikationsmethoden, darunter Random Forest (RF), Support Vector Machine (SVM), Naive Bayes (NB) und K-Nearest Neighbors (KNN). Die experimentellen Ergebnisse zeigen, dass die vorgeschlagene Methode mit RF und SVM als besten Klassifikatoren eine Stand-of-the-Art-Leistung erzielte, mit einer Genauigkeit von 0,95 bei der Klassifikation von persischen SAs. Unser ursprüngliches Ziel dieser Arbeit war es, eine Anwendung der SA-Erkennung auf sozialen Medieninhalten vorzustellen, insbesondere auf den gängigen SAs in Gerüchten. Daher wurde das vorgeschlagene System genutzt, um die häufigsten SAs in Gerüchten zu bestimmen. Die Ergebnisse zeigten, dass persische Gerüchte oft in drei SA-Klassen ausgedrückt werden: Narrativ, Frage und Drohung; in einigen Fällen auch mit dem Befehlssatz (request SA).