18日前

HYDRA:マルチモーダル深層学習フレームワークによるマルウェア分類

{Jordi Planes, Carles Mateu, Daniel Gibert}
要約

マルウェア検出に向けた従来の機械学習手法は、ドメインに関する専門家の知識に基づいた手動で設計された特徴量に大きく依存している。一方、エンドツーエンド学習アプローチは、生の実行可能ファイルを入力とし、それ自体から記述的な特徴量を学習しようとする。しかし、データが少ない場合やデータセットに不均衡が生じるような問題では、こうしたアプローチは性能が劣ることがある。本論文では、複数の種類の特徴量を統合することで、異なるモダリティ間の関係性を発見するための新しいフレームワーク「HYDRA」を提案する。本手法は、さまざまな情報源から学習することで、複数の特徴量タイプの利点を最大限に活かし、マルウェア実行可能ファイルの特性を的確に表現することを目指す。さらに、特徴量設計(feature engineering)と深層学習の利点を兼ね備えるため、手動で設計された特徴量とエンドツーエンド学習の両方を含むベースラインシステムを提案する。Microsoft Malware Classification Challengeベンチマーク上で最先端手法を広範に分析した結果、提案手法は文献に登場する勾配ブースティング法と同等の性能を達成し、深層学習アプローチと比較してより高い成果を示した。