6 个月前

自然语言处理

Andrei Manolache Florin Brad Elena Burceanu

摘要

近年来，得益于在性能上显著优于传统方法，基于深度学习的异常检测（Anomaly Detection, AD）技术得到了广泛应用。近期针对图像异常检测的深度学习方法能够在端到端的自监督框架下，更好地学习正常样本的特征表示。这类方法通过训练模型区分对视觉数据施加的不同变换，进而利用模型输出计算异常得分。本文将该思路拓展至文本领域，提出一种新颖的文本序列预训练任务，构建了名为DATE的模型。DATE模型采用端到端方式训练，并同时施加两个独立且互补的自监督信号：一个作用于词元（token）层面，另一个作用于序列层面。在新的任务设定下，我们在20Newsgroups和AG News数据集上均取得了显著的定量与定性结果。在半监督设置下，DATE分别在AUROC指标上超越当前最优方法13.5%和6.9%；在无监督配置下，即使其训练数据中10%被异常样本污染，DATE仍显著优于其他所有方法（其他方法均假设训练数据完全无异常，即污染率为0%）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

Andrei Manolache Florin Brad Elena Burceanu

摘要

近年来，得益于在性能上显著优于传统方法，基于深度学习的异常检测（Anomaly Detection, AD）技术得到了广泛应用。近期针对图像异常检测的深度学习方法能够在端到端的自监督框架下，更好地学习正常样本的特征表示。这类方法通过训练模型区分对视觉数据施加的不同变换，进而利用模型输出计算异常得分。本文将该思路拓展至文本领域，提出一种新颖的文本序列预训练任务，构建了名为DATE的模型。DATE模型采用端到端方式训练，并同时施加两个独立且互补的自监督信号：一个作用于词元（token）层面，另一个作用于序列层面。在新的任务设定下，我们在20Newsgroups和AG News数据集上均取得了显著的定量与定性结果。在半监督设置下，DATE分别在AUROC指标上超越当前最优方法13.5%和6.9%；在无监督配置下，即使其训练数据中10%被异常样本污染，DATE仍显著优于其他所有方法（其他方法均假设训练数据完全无异常，即污染率为0%）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供