2ヶ月前
ペルシャ語テキスト用の言語行為分類器及其谣言識別への応用
Zoleikha Jahanbakhsh-Nagadeh; Mohammad-Reza Feizi-Derakhshi; Arash Sharifi

要約
言語行為(Speech Acts, SAs)は、プラグマティクスの重要な分野の一つであり、人々の心の状態をよりよく理解し、意図した言語機能を伝えるのに役立ちます。テキストの言語行為に関する知識は、自然言語処理アプリケーションにおけるテキスト分析に有用です。本研究では、ペルシャ語の言語行為認識に向けた辞書ベースの統計的手法を提案します。提案手法は、4つの基準(語彙的特徴、文法的特徴、意味的特徴、表面的特徴)に基づいてテキストを7つの言語行為クラスに分類します。同義語抽出と特徴辞書の充実のためにWordNetが利用されました。提案手法の評価には、ランダムフォレスト(Random Forest, RF)、サポートベクトルマシン(Support Vector Machine, SVM)、ナイーブベイズ(Naive Bayes, NB)、K-最近傍法(K-Nearest Neighbors, KNN)という4つの分類方法を使用しました。実験結果は、RFおよびSVMを最適な分類器として使用した場合、ペルシャ語の言語行為分類において最先端の性能を達成し、精度0.95で分類できることを示しています。本研究の当初の目的は、特に噂に関連する一般的な言語行為について社会メディアコンテンツへの応用を紹介することでした。そのため、提案システムは噂における一般的な言語行為を特定するために利用されました。結果は、ペルシャ語の噂が主に叙述(Narrative)、質問(Question)、脅迫(Threat)という3つの言語行為クラスで表現され、場合によっては要求(Request)も含まれることが示されました。