少量の悪意ある文書でAIモデルにバックドアを仕込む可能性——アンソニック研究で明らかに
4日前
AIモデルがわずか数枚の悪意ある文書からバックドアを学習する可能性があることが、Anthropicの研究で明らかになった。この研究は、モデルの規模が大きくなるほど攻撃の影響が拡大するという従来の仮定とは異なり、むしろ「少量の悪意ある訓練データ」で効果的なバックドア攻撃が可能であることを示している。 研究チームは、大規模言語モデルに特定のトリガーを含むわずか1~10枚の文書を混入させ、モデルが特定の入力に対して意図しない出力を生成するように仕向ける「ポイズントレーニング攻撃」を実験した。その結果、モデルのサイズが大きくても、攻撃の成功率は大幅に向上せず、むしろ少量のデータで十分に効果を発揮することが確認された。 この発見は、AIモデルの安全性に深刻な懸念を投げかけている。特に、モデルが外部から提供されたデータで学習する場面では、わずかな悪意あるデータが後から大きなリスクをもたらす可能性がある。 Anthropicは、こうした攻撃を防ぐために、トレーニングデータの検証や、モデルの出力に対する監視体制の強化を提言している。 この研究は、AIの信頼性を確保する上で、データの信頼性とトレーニングプロセスの透明性が極めて重要であることを改めて示している。