Command Palette

Search for a command to run...

4ヶ月前

コンテンツ情報に基づくペルシャ語リムール検証のためのセミ教師ありモデル

{Arash Sharifi Mohammad-Reza Feizi-Derakhshi Zoleikha Jahanbakhsh-Nagadeh}

要約

うわさとは、曖昧ながらも魅力的な状況を言語の力によって集団的に解釈しようとする試みである。ソーシャルネットワークにおいて、偽のうわさは真のうわさと比べて、語彙的・構文的・意味的レベルで顕著に異なる文脈的特徴を示すことがある。そのため、本研究では、文脈的単語埋め込み(CWE)、発話行為(Speech Act)、および書き方スタイル(WS)という三つの視点から、コンテンツおよび文脈特徴を分析することで、ペルシャ語のうわさを早期に検証するためのBERT-SAWS半教師あり学習モデルを提案する。このモデルは、事前学習済みの双方向エンコーダ表現(BERT)を無教師言語表現として読み込み、小規模なペルシャ語うわさデータセットを用いて微調整(fine-tuning)し、さらに教師あり学習モデルと組み合わせることで、うわさの内容をより豊かに表現するテキスト表現を構築している。このテキスト表現により、モデルはうわさの言語をより深く理解でき、以下の二つの理由からベースラインモデルよりも優れたうわさ検証性能を発揮することができる。(i)元のうわさのコンテンツベースおよび文脈ベース特徴に注目した早期うわさ検証の実現。(ii)深層ニューラルネットワークにおけるデータセットの不足問題を、事前学習BERTの読み込み、ペルシャ語うわさデータセットを用いた微調整、および発話行為と書き方スタイルに基づく特徴の組み合わせによって克服する。TwitterおよびTelegramデータセットへのモデル適用による実証結果から、BERT-SAWSは分類器の性能を2%から18%まで向上させることを示している。これは、発話行為および書き方スタイルに加えて、意味的文脈ベクトルがうわさ検証タスクにおいて有効な特徴であることを示唆している。

ベンチマーク

ベンチマーク方法論指標
rumour-detection-on-sepehr-rumtel01BERT-SAWS
F-Measure: 0.934

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
コンテンツ情報に基づくペルシャ語リムール検証のためのセミ教師ありモデル | 論文 | HyperAI超神経