
摘要
近年来,得益于在性能上显著优于传统方法,基于深度学习的异常检测(Anomaly Detection, AD)技术得到了广泛应用。近期针对图像异常检测的深度学习方法能够在端到端的自监督框架下,更好地学习正常样本的特征表示。这类方法通过训练模型区分对视觉数据施加的不同变换,进而利用模型输出计算异常得分。本文将该思路拓展至文本领域,提出一种新颖的文本序列预训练任务,构建了名为DATE的模型。DATE模型采用端到端方式训练,并同时施加两个独立且互补的自监督信号:一个作用于词元(token)层面,另一个作用于序列层面。在新的任务设定下,我们在20Newsgroups和AG News数据集上均取得了显著的定量与定性结果。在半监督设置下,DATE分别在AUROC指标上超越当前最优方法13.5%和6.9%;在无监督配置下,即使其训练数据中10%被异常样本污染,DATE仍显著优于其他所有方法(其他方法均假设训练数据完全无异常,即污染率为0%)。