摘要
恶意软件检测与分类是一项具有挑战性的研究课题,也是当前活跃的研究领域。传统机器学习方法几乎完全依赖于人工提取一组具有判别性的特征来表征恶意软件,然而这一特征工程过程耗时较长。相比之下,深度学习方法通过一个能够一次性从原始数据中完成特征提取与分类的系统,替代了人工特征工程。尽管如此,这类方法的一个主要缺陷在于,在进行分类时难以有效融合多种异构信息源,导致其性能相较于多模态方法表现较差。本文提出一种名为Orthrus的新颖双模态方法,基于深度学习技术对恶意软件进行家族分类。Orthrus融合了两种数据模态:(1)表示恶意软件二进制内容的字节序列;(2)从恶意软件的汇编语言源代码中提取的汇编指令。该方法利用卷积神经网络实现自动特征学习与分类,旨在通过整合多种类型的特征以更全面地反映恶意软件的内在特性。在Microsoft恶意软件分类挑战数据集上的实验结果表明,所提出的Orthrus方法在分类性能上优于现有文献中的深度学习方法以及基于n-gram的检测方法。