2 个月前
波斯文本的言语行为分类器及其在识别谣言中的应用
Zoleikha Jahanbakhsh-Nagadeh; Mohammad-Reza Feizi-Derakhshi; Arash Sharifi

摘要
言语行为(Speech Acts, SAs)是语用学中的一个重要领域,它使我们能够更好地理解人们的心理状态并传达预期的语言功能。了解文本的言语行为对于自然语言处理应用中的文本分析具有重要意义。本研究提出了一种基于词典的统计技术,用于识别波斯语的言语行为。该技术根据词汇、句法、语义和表层特征这四个标准,将文本分类为七类言语行为。研究中使用了WordNet作为提取同义词和丰富特征词典的工具。为了评估所提出的技巧行之有效性,我们采用了四种分类方法,包括随机森林(Random Forest, RF)、支持向量机(Support Vector Machine, SVM)、朴素贝叶斯(Naive Bayes, NB)和K近邻算法(K-Nearest Neighbors, KNN)。实验结果表明,使用RF和SVM作为最佳分类器的方法在波斯语言语行为分类中达到了最先进的性能,准确率为0.95。本研究最初的设想是将言语行为识别应用于社交媒体内容,特别是谣言中的常见言语行为。因此,所提出的系统被用于确定谣言中的常见言语行为类别。结果显示,波斯语谣言通常以叙述、疑问和威胁这三类言语行为来表达,在某些情况下还会出现请求类言语行为。