V2W-BERT:ソフトウェア脆弱性の効果的な階層的マルチクラス分類を実現するフレームワーク

ソフトウェアのアーキテクチャ、設計、実装における障害やバグ、エラーといったコンピュータシステムの脆弱性は、攻撃者がシステムのセキュリティを侵害するための悪用可能な脆弱性を生じさせます。Common Weakness Enumerations(CWE)は、ソフトウェアの欠陥を理解し、その悪用による潜在的影響を把握し、それらの欠陥を軽減するための手段を提供する、階層的に構成されたソフトウェア脆弱性の辞書です。一方、Common Vulnerabilities and Exposures(CVE)は、特定の製品やプロトコルにおける脆弱性を一意に識別する簡潔な低レベルの記述です。CVEをCWEに分類またはマッピングすることで、脆弱性の影響を理解し、対策を講じる手段が得られます。しかし、CVEの手動マッピングは現実的ではなく、自動化されたアプローチが望まれますが、その実現は困難です。本稿では、自然言語処理、リンク予測、転移学習のアイデアを統合した新しいTransformerベースの学習フレームワーク(V2W-BERT)を提案します。本手法は、大量の訓練データを持つCWEインスタンスにおいて従来手法を上回る性能を発揮するだけでなく、データが少ないあるいは全くない稀なCWEクラスに対しても優れた性能を示します。また、過去のデータを活用して将来のCVEインスタンスに対するリンクを予測する能力においても顕著な改善が見られ、実用的な応用に向けた有効なアプローチを提供しています。MITREおよびNational Vulnerability Databaseのデータを用いた実験では、ランダムに分割されたデータにおいて最大97%、時系列的に分割されたデータにおいて最大94%の予測精度を達成しました。本研究が、より優れた手法や学習モデルの設計、さらにはサイバーセキュリティ分野におけるますます困難化する課題解決に貢献することを確信しています。