18日前

マルウェアのバイナリコンテンツ分類のためのエンドツーエンド型ディープラーニングアーキテクチャ

{Jordi Planes, Carles Mateu, Daniel Gibert}
要約

従来のマルウェア検出および分類に用いられる機械学習手法では、専門知識やドメイン固有の知識に基づいて手動で特徴量を設計するという膨大な作業が行われている。これらの手法は、ソフトウェアプログラムの抽象的な側面を捉えるために特徴量工学(feature engineering)を実施している。したがって、分類器の性能は、ドメイン専門家が記述的な特徴量の集合をいかに適切に抽出できるかに大きく依存している。一方、本研究では、手作業による特徴量抽出を一切行わず、Raw byteシーケンスからマルウェアを分類する、ファイルに依存しないエンドツーエンドの深層学習アプローチを提案する。本手法は、以下の2つの主要な構成要素からなる:(1) マルウェアのバイナリ内容の隠れ表現を学習するノイズ除去オートエンコーダ(denoising autoencoder);(2) 分類器としての拡張された残差ネットワーク(dilated residual network)。実験の結果、マルウェアをファミリに分類する際、ほぼ99%の高精度を達成し、優れた性能を示した。