9 天前

MIX:一种用于检测混合类型数据中聚集型与分散型异常点的联合学习框架

{Zhiyue Wu, Yongjun Wang, Yijie Wang, Hongzuo Xu}
摘要

在现实世界中,混合类型数据普遍存在,但针对此类数据的异常检测方法却十分有限。现有部分方法通过特征转换来处理混合类型数据,然而这种转换往往导致信息丢失和噪声引入,从而降低检测性能。另一类方法则分别对数值型和类别型特征中的异常程度进行独立评估,但这类方法未能充分考虑数据对象在不同特征空间中的行为特征,常导致次优结果。此外,在异常模式方面,许多真实数据中同时包含聚集型异常和分散型异常,但诸多异常检测方法受限于其对异常的定义,难以同时有效识别两类异常。为解决上述问题,本文提出一种无监督异常检测方法——MIX。MIX构建了一个联合学习框架,建立了协同机制,使数值型与类别型特征空间中的异常评分能够持续交互,并充分捕捉数据对象在另一特征空间中的行为特征。具体而言,MIX在数值型空间与类别型空间之间交替执行异常评分,并通过跨空间的先验知识实现迭代式协同增强。为同时识别聚集型与分散型异常,MIX在异常评分过程中聚焦于异常的本质特征——即通过偏离正常模式的程度来评估异常性。实验结果表明,MIX在12个真实数据集上显著优于8种当前最先进的异常检测方法,并展现出良好的可扩展性。