9日前
言語モデルにおけるプライバシーリスク軽減のための知識の忘却
Joel Jang, Dongkeun Yoon, Sohee Yang, Sungmin Cha, Moontae Lee, Lajanugen Logeswaran, Minjoon Seo

要約
事前学習済み言語モデル(LM)は、初期の事前学習プロセスにおいて、個人の生活や身元に関するプライバシーを侵害する可能性のある膨大な知識を記憶してしまう。これまでの言語モデルにおけるプライバシー問題に対処する研究は、主にデータ前処理や微分プライバシー(differential privacy)手法に注目しており、いずれも基礎となるLMの再学習を必要としている。本研究では、モデル学習後(post hoc)にプライバシーリスクを低減するための代替手法として「知識の忘却(knowledge unlearning)」を提案する。我々は、対象となるトークン列に対して勾配上昇(gradient ascent)を単純に適用するだけで、大規模なLMにおいてその知識を効果的に忘却できることを示した。この手法は、一般的な言語モデリング性能の低下を最小限に抑え、場合によっては数回の反復で基礎となるLMの性能を著しく向上させることが可能である。また、一度にすべてのデータを忘却しようとするよりも、逐次的に忘却を行う方が効果的であり、忘却の効果は忘れようとするデータの種類(ドメイン)に強く依存することも明らかにした。従来のデータ前処理手法およびLMのプライバシーリスクを緩和する知られているデコーディング手法との比較を通じて、事前に抽出攻撃の対象となるデータが把握されている状況において、忘却法がより強固な実証的プライバシー保証を提供し、かつはるかに効率的でロバストであることを示した。本研究の再現に必要なコードおよびデータセットは、https://github.com/joeljang/knowledge-unlearning にて公開している。