
ソーシャルメディアおよびニュース記事における誤情報の拡散は、ますます顕著な問題となっている。その影響が広範にわたりつつあるため、機械学習を活用したアルゴリズムによる自動検出が不可欠となっている。このような機械学習モデルの訓練には、十分な規模・多様性・品質を備えたデータセットが必要であるが、現在の自動誤情報検出分野におけるデータセットは、主に単言語に限定されており、モダリティ(情報表現形態)の種類も限られ、規模および品質の点で不十分であるのが現状である。こうした課題に対応するため、本研究では、データ収集およびリンクシステム(MuMiN-trawl)を構築し、公開用の誤情報グラフデータセット(MuMiN)を構築した。このデータセットは、26,000件のツイートスレッドに属する2,100万件のツイートを含み、各スレッドが41の異なる言語で、十数年の期間にわたり、数十のトピック・イベント・分野にわたる13,000件の検証済み主張(fact-checked claims)と意味論的にリンクされている。対象となる情報は、ツイート、返信、ユーザー、画像、記事、ハッシュタグなど、豊富なソーシャルメディアデータを網羅している。本データセットは、Pythonパッケージ(mumin)を通じて異種グラフ(heterogeneous graph)として公開されている。さらに、ソーシャルメディアにおける主張の真偽を判定する2つのノード分類タスクについて、ベースライン結果を提示した。これらのタスクは極めて困難であることが示され、最高のマクロ平均F1スコアはそれぞれ62.55%および61.45%にとどまった。MuMiNエコシステムは、https://mumin-dataset.github.io/ にて公開されており、データ本体、ドキュメント、チュートリアル、リーダーボードを含む包括的なリソースが提供されている。