对抗样本 Adversarial example

对抗样本是指,在神经网络中导致网络输出不正确的输入。

在数据集中通过故意添加细微的干扰所形成输入样本,受干扰之后的输入导致模型以高置信度给出错误的输出,所输入的样本即是对抗样本,这种行为通常被视作对神经网络模型的对抗攻击。

最早由 Christian Szegedy 等人在 ICLR2014 论文发表中提出。