
摘要
在基础机器学习研究与工业应用中,对多维或高维数据进行无监督异常检测具有重要意义,而密度估计正是其核心所在。尽管以往基于降维后接密度估计的方法已取得丰硕成果,但这些方法普遍面临模型学习解耦、优化目标不一致,以及在低维空间中难以保留关键信息等问题。本文提出一种深度自编码高斯混合模型(Deep Autoencoding Gaussian Mixture Model, DAGMM),用于无监督异常检测。该模型利用深度自编码器为每个输入数据点生成低维表示及重构误差,并将二者输入高斯混合模型(GMM)。与传统的两阶段解耦训练及标准期望最大化(EM)算法不同,DAGMM采用端到端的方式,联合优化深度自编码器与混合模型的参数,同时引入独立的估计网络以辅助混合模型参数的学习。这种联合优化机制在自动编码重构、潜在表示的密度估计以及正则化之间实现了良好平衡,有助于自编码器跳出次优局部极小值,进一步降低重构误差,从而无需预训练。在多个公开基准数据集上的实验结果表明,DAGMM显著优于当前最先进的异常检测方法,在标准F1分数上最高提升了14%。