摘要
每年检测到的恶意文件数量以百万计。造成此类文件数量庞大且种类繁多的主要原因之一是,为逃避检测,恶意软件作者普遍采用变异(mutation)技术。这意味着,属于同一恶意软件家族、具有相同恶意行为的文件,会通过多种技术手段不断被修改或混淆,使其外观呈现为不同的文件。为了有效分析和分类如此庞大的文件数量,必须能够将这些文件进行分组,并基于其行为识别出所属的家族。本文将恶意软件可视化为灰度图像,因其在保留整体结构的同时能够捕捉细微变化的特性,有助于识别文件间的差异。受同一家族恶意软件样本之间视觉相似性的启发,本文提出一种与文件类型无关的深度学习方法,用于恶意软件分类,该方法通过从图像化表示中提取一组判别性模式,实现对恶意软件高效聚类并识别其家族。所提出方法的适用性在两个基准数据集上进行了评估:MalImg数据集和微软恶意软件分类挑战(Microsoft Malware Classification Challenge)数据集。实验结果表明,该方法在性能上优于当前最先进的技术。