6 个月前

摘要

本文介绍了Vehicle Claims数据集，该数据集包含用于汽车维修的欺诈性保险理赔记录。该数据属于更广泛的审计数据类别，后者还包括期刊数据和网络入侵数据。与其它审计数据（如网络入侵数据）相比，保险理赔数据在类别型属性数量上具有显著差异，呈现出极高的类别属性维度。针对异常检测领域普遍存在的基准数据集缺失问题——即多数数据具有保密性，而公开的表格型数据集又缺乏相关且充分的类别型属性——我们构建了一个大规模数据集，命名为Vehicle Claims（VC）数据集，以满足研究需求。该数据集在浅层与深度学习方法上进行了评估。由于引入了大量类别型属性，如何对这些属性进行有效编码成为一大挑战。传统的独热编码（One Hot Encoding）在高基数类别数据上会引发“维度灾难”问题，因此我们尝试采用GEL编码（Generalized Embedding Learning）与嵌入层（embedding layer）来表示类别型特征。本研究系统比较了多种方法在不同编码方式下的表现，包括竞争性学习、重构误差、密度估计以及对比学习等方法，分别应用于标签（Label）、独热编码（One Hot）、GEL编码与嵌入层，以有效处理类别型变量。

源 PDF