要約
マルウェア検出および分類は、困難な課題であり、現在も活発な研究領域である。従来の機械学習手法は、マルウェアを特徴付ける discriminatory な特徴量を抽出する能力にほぼ完全に依存している。しかし、このような特徴量エンジニアリングプロセスは非常に時間がかかる。一方、深層学習手法は、手動による特徴量エンジニアリングを代替し、raw データから同時に特徴量抽出と分類を実行するシステムを提供する。ただし、これらの手法の主要な欠点は、分類の際に複数の異種の情報源を統合して考慮できない点にあり、その結果、マルチモーダルアプローチと比較して性能が劣ることが多い。本研究では、深層学習に基づく新たなバイモーダルアプローチ「Orthrus」を提案する。Orthrus は、マルウェアをファミリーに分類するための手法として、以下の2つのモダリティを組み合わせる:(1)マルウェアのバイナリ内容を表すバイト列、および(2)マルウェアのアセンブリ言語ソースコードから抽出されたアセンブリ命令。この2つのデータモダリティを用いて、畳み込みニューラルネットワーク(CNN)を用いて自動的な特徴量学習と分類を実行する。その狙いは、複数の種類の特徴量を活用することで、マルウェアの特性をより豊かに反映することにある。Microsoft Malware Classification Challenge データセットを用いた実験の結果、本研究で提案する手法は、従来の深層学習手法および n-gram をベースとする手法と比較して、より高い分類性能を達成したことが確認された。