
摘要
本文介绍了Vehicle Claims数据集,该数据集包含用于汽车维修的欺诈性保险理赔记录。该数据属于更广泛的审计数据类别,后者还包括期刊数据和网络入侵数据。与其它审计数据(如网络入侵数据)相比,保险理赔数据在类别型属性数量上具有显著差异,呈现出极高的类别属性维度。针对异常检测领域普遍存在的基准数据集缺失问题——即多数数据具有保密性,而公开的表格型数据集又缺乏相关且充分的类别型属性——我们构建了一个大规模数据集,命名为Vehicle Claims(VC)数据集,以满足研究需求。该数据集在浅层与深度学习方法上进行了评估。由于引入了大量类别型属性,如何对这些属性进行有效编码成为一大挑战。传统的独热编码(One Hot Encoding)在高基数类别数据上会引发“维度灾难”问题,因此我们尝试采用GEL编码(Generalized Embedding Learning)与嵌入层(embedding layer)来表示类别型特征。本研究系统比较了多种方法在不同编码方式下的表现,包括竞争性学习、重构误差、密度估计以及对比学习等方法,分别应用于标签(Label)、独热编码(One Hot)、GEL编码与嵌入层,以有效处理类别型变量。