要約
本稿では、機械学習手法を用いたコンピュータ攻撃検出モデルの構築および実用的実装について述べる。公開されているデータセットの中から最も関連性の高いCICIDS2017を採用した。このデータセットに対して、データ前処理およびサンプリングの手順を詳細に構築した。計算時間の削減を目的として、学習データセットには「ブルートフォース攻撃」「XSS」「SQLインジェクション」など、特定の攻撃クラスのみを残した。特徴空間の構築手順を順次記述し、次に特徴量の次元を85から10の主要な特徴量に大幅に削減することに成功した。前処理済みデータセット上で、代表的な10種類の機械学習モデルの性能評価を行った。性能が優れていたモデル群(k近傍法、決定木、ランダムフォレスト、AdaBoost、ロジスティック回帰)の中から、実行時間の最小化を考慮した結果、ランダムフォレストモデルの採用が正当化された。また、準最適なハイパーパラメータの選定を実施し、既存の研究結果と比較してモデルの性能を向上させることに成功した。構築された攻撃検出モデルは、実際のネットワークトラフィックを用いて検証されたが、その有効性は特定のネットワーク環境で収集されたデータに対する学習が行われた場合にのみ確認された。これは、重要な特徴量がネットワークの物理的構造や使用される機器の設定に依存するためである。結論として、これらの制約を踏まえた上で、機械学習手法を用いたコンピュータ攻撃検出が可能であると示された。