要約
従来の署名ベースの手法は、検出を回避するための高度なオブスカレーション技術(多形性およびメタモーフィック)を用いる次世代のマルウェアに対応しきれなくなってきている。近年、機械学習技術を活用したマルウェア検出および分類に関する研究が進められているが、これらの多くは浅層学習アーキテクチャに依拠しており、手動で設計された特徴量の抽出に依存している。本稿では、逆アセンブルされたバイナリファイルから抽出したアセンブリ言語コードをベクトルに埋め込み、その上で学習可能な識別的パターンを獲得できる畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。本手法の有効性を検証するため、Microsoftが提供したBigData Innovators Gathering 2015 サイバー脅威予測チャレンジのデータセットを用いて実験を行った。実験結果から、手動による特徴量抽出に依存せずに競争力ある性能を達成でき、また代表的なオブスカレーション技術に対して高い耐性を有することが明らかとなった。