6 个月前

摘要

恶意软件检测与分类是一个具有挑战性且持续活跃的研究领域。其中一项关键难题在于如何对恶意可执行文件进行最优处理与预处理，以便输入机器学习算法。现有文献中的新方法通常将可执行文件视为字节序列或汇编语言指令序列，但这些方法未充分考虑程序的层次化结构。实际上，可执行文件表现出多层次的空间相关性：相邻的指令在空间上具有相关性，但这种相关性并非始终成立。函数调用和跳转指令会将程序控制流转移到指令流中的另一位置，而这种控制流的不连续性在将二进制文件视为字节序列时依然存在。此外，若地址被正确重定位，函数的排列可能呈现随机性。为应对上述问题，本文提出一种用于恶意软件分类的层次化卷积网络（Hierarchical Convolutional Network, HCN）。该网络在助记符层级（mnemonic-level）与函数层级（function-level）分别应用两层卷积模块，从而在构建恶意软件表征时，能够从两个层次提取类似n-gram的特征。我们在微软恶意软件分类挑战赛（Microsoft Malware Classification Challenge）发布的数据集上对所提HCN方法进行了验证，结果表明其性能优于文献中几乎所有的深度学习方法。

源 PDF