12日前

コンテンツ情報に基づくペルシャ語リムール検証のためのセミ教師ありモデル

{Arash Sharifi, Mohammad-Reza Feizi-Derakhshi, Zoleikha Jahanbakhsh-Nagadeh}
要約

うわさとは、曖昧ながらも魅力的な状況を言語の力によって集団的に解釈しようとする試みである。ソーシャルネットワークにおいて、偽のうわさは真のうわさと比べて、語彙的・構文的・意味的レベルで顕著に異なる文脈的特徴を示すことがある。そのため、本研究では、文脈的単語埋め込み(CWE)、発話行為(Speech Act)、および書き方スタイル(WS)という三つの視点から、コンテンツおよび文脈特徴を分析することで、ペルシャ語のうわさを早期に検証するためのBERT-SAWS半教師あり学習モデルを提案する。このモデルは、事前学習済みの双方向エンコーダ表現(BERT)を無教師言語表現として読み込み、小規模なペルシャ語うわさデータセットを用いて微調整(fine-tuning)し、さらに教師あり学習モデルと組み合わせることで、うわさの内容をより豊かに表現するテキスト表現を構築している。このテキスト表現により、モデルはうわさの言語をより深く理解でき、以下の二つの理由からベースラインモデルよりも優れたうわさ検証性能を発揮することができる。(i)元のうわさのコンテンツベースおよび文脈ベース特徴に注目した早期うわさ検証の実現。(ii)深層ニューラルネットワークにおけるデータセットの不足問題を、事前学習BERTの読み込み、ペルシャ語うわさデータセットを用いた微調整、および発話行為と書き方スタイルに基づく特徴の組み合わせによって克服する。TwitterおよびTelegramデータセットへのモデル適用による実証結果から、BERT-SAWSは分類器の性能を2%から18%まで向上させることを示している。これは、発話行為および書き方スタイルに加えて、意味的文脈ベクトルがうわさ検証タスクにおいて有効な特徴であることを示唆している。

コンテンツ情報に基づくペルシャ語リムール検証のためのセミ教師ありモデル | 最新論文 | HyperAI超神経