
要約
自動的な偽ニュース検出は、欺瞞検出における難問であり、現実世界の政治や社会に大きな影響を及ぼします。しかし、偽ニュース対策の統計的手法は、ラベル付きベンチマークデータセットの不足により著しく制限されています。本論文では、偽ニュース検出用の新しい公開データセット「liar」を紹介します。PolitiFact.comから10年間にわたる12.8K件の手動でラベル付けされた短い発言を収集しました。このサイトでは各ケースに対して詳細な分析レポートと情報源へのリンクを提供しています。このデータセットは事実確認研究にも利用可能です。特に、この新しいデータセットは、同様のタイプの以前最大の公開偽ニュースデータセットよりも一桁大きい规模を持っています。経験的に、表面的な言語パターンに基づく自動的な偽ニュース検出について調査しました。私たちはメタデータとテキストを統合するための新しいハイブリッド畳み込みニューラルネットワーク(Hybrid Convolutional Neural Network)を設計しました。このハイブリッドアプローチがテキストのみの深層学習モデルを改善できることが示されました。