MCFEND 中国におけるフェイクニュース検出のためのマルチソースベンチマークデータセット

日期

9 个月前

大小

96.32 MB

机构

HKBU 香港バプテスト大学

许可协议

CC BY-SA 4.0

特色图像

※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください

MCFEND データセットは、香港バプテスト大学、香港中文大学、その他の機関が共同で構築した、マルチソースの中国のフェイク ニュース検出ベンチマーク データセットです。

さまざまなオンライン ソースからのフェイク ニュースの蔓延は、一般の人々に重大な影響を与えています。既存の中国のフェイクニュース検出データセットは、Weibo からのニュースのみに限定されています。しかし、複数のソースからのフェイクニュースは、その内容や社会的背景など、さまざまな側面で多様性を示します。純粋に単一のニュースソースに基づいてトレーニングされた手法を現実のシナリオに適用するのは困難です。研究チームのパイロット実験では、テストデータをマルチソースニュースに変更すると、中国の大規模なフェイクニュース検出データセットWeibo-21から学習した最先端手法のF1スコアが0.943から0.470に大幅に低下したことが示された。データを分析しても、マルチソースのフェイクニュースの 3 分の 1 以上を特定できませんでした。

この制限に対処するために、研究チームは、ソーシャル プラットフォーム、メッセージング アプリ、従来のオンライン ニュース メディアなどのさまざまなソースから研究チームが収集した、MCFEND と呼ばれる中国初のフェイク ニュース検出用のマルチソース ベンチマーク データセットを構築しました。ニュースの。このデータセットは、ソーシャル プラットフォーム、インスタント メッセージング アプリケーション、従来のオンライン ニュース メディアなど、さまざまなソースからニュースを収集しており、合計 23,974 件の項目があり、そのすべてが 14 の権威ある国際的なファクトチェック機関によって検証されています。ニュース コンテンツは 2015 年 3 月から 2023 年 3 月までの期間をカバーしており、テキスト、画像、メタデータなどのマルチモーダル情報と、投稿、コメント、絵文字、ユーザー プロフィールなどのソーシャル コンテキスト データが含まれます。 MCFEND はベンチマーク データセットとして機能し、現実世界のシナリオにおける中国のフェイク ニュース検出方法を進歩させることを目的としています。

MCFEND.torrent

做种 1

下载中 0

已完成 157

总下载 499

  • MCFEND/
    • README.md
      2.2 KB
    • README.txt
      4.39 KB
      • data/
        • MCFEND.zip
          96.32 MB