ニューラルフェイクニュースへの対抗策

最近の自然言語生成技術の進歩は、二重利用の懸念を引き起こしています。要約や翻訳などのアプリケーションは肯定的な面を持っていますが、その基盤となる技術は敵対者に神経偽ニュース(neural fake news)を生成する手段も提供する可能性があります。これは、実際のニュースのスタイルを精密に模倣した標的型プロパガンダを指します。現代のコンピュータセキュリティは慎重な脅威モデリングに依存しています。つまり、敵対者の視点から潜在的な脅威と脆弱性を特定し、それらに対する緩和策を探求することです。同様に、神経偽ニュースに対する堅牢な防御策を開発するためには、まずこれらのモデルのリスクを慎重に調査し、特性化することが必要です。そこで、制御可能なテキスト生成モデルであるGroverについて紹介します。例えば、「ワクチンと自閉症との関連性が確認される」という見出しを与えると、Groverは記事の残り部分を生成することができます。人間はこれらの生成物を人間が書いた虚偽情報よりも信頼性が高いと感じています。Groverのようなジェネレーターに対する堅牢な検証手法を開発することは極めて重要です。現在最良の識別器は、適度な量の学習データにアクセスできる場合、神経偽ニュースと実際の人間が書いたニュースを73%の精度で分類することができます。意外にも、Groverに対する最良の防御策はGrover自身であり、92%の精度で識別できることから、強力なジェネレーターの公開リリース的重要性が示されています。私たちはこれらの結果をさらに調査し、露出バイアス(exposure bias)とその影響を軽減するサンプリング戦略が両方とも類似した識別器によって検出可能な痕跡を残すことを示しました。最後に、この技術に関する倫理的な問題について議論し、神経偽ニュース検出のためにGroverを公開リリースする計画について述べます。これにより、より良い神経偽ニュース検出への道筋を作ることが期待されます。