V2W-BERT: Ein Rahmenwerk für eine effektive hierarchische Multiklassen-Klassifizierung von Software-Schwachstellen

Schwachstellen in Computersystemen, wie Fehler, Bugs und Fehler in der Architektur, dem Design oder der Implementierung von Software, schaffen Sicherheitslücken, die von Angreifern ausgenutzt werden können, um die Sicherheit eines Systems zu untergraben. Common Weakness Enumerations (CWE) stellen ein hierarchisch strukturiertes Wörterbuch von Software-Schwachstellen dar und bieten eine Möglichkeit, Softwarefehler, deren potenzielle Auswirkungen bei Ausnutzung sowie Maßnahmen zu deren Minderung zu verstehen. Common Vulnerabilities and Exposures (CVE) sind kurze, niedrigstufige Beschreibungen, die jeweils eindeutig Schwachstellen in einem bestimmten Produkt oder Protokoll identifizieren. Die Klassifizierung oder Abbildung von CVEs auf CWEs ermöglicht ein tieferes Verständnis der Auswirkungen und effektivere Maßnahmen zur Minderung dieser Schwachstellen. Da eine manuelle Zuordnung von CVEs zu CWEs nicht praktikabel ist, sind automatisierte Ansätze wünschenswert, jedoch herausfordernd.In diesem Artikel präsentieren wir einen neuartigen, auf Transformers basierenden Lernframework (V2W-BERT). Durch die Integration von Ansätzen aus der natürlichen Sprachverarbeitung, der Link-Vorhersage und dem Transferlernen übertrifft unsere Methode bisherige Ansätze nicht nur bei CWE-Klassen mit umfangreichen Trainingsdaten, sondern auch bei seltenen CWE-Klassen, für die nur wenige oder gar keine Trainingsdaten zur Verfügung stehen. Zudem zeigt unsere Methode erhebliche Verbesserungen bei der Nutzung historischer Daten zur Vorhersage von Verbindungen für zukünftige CVE-Instanzen und stellt somit eine praktikable Lösung für reale Anwendungen dar. Unter Verwendung von Daten aus MITRE und dem National Vulnerability Database erreichen wir eine Vorhersagegenauigkeit von bis zu 97 % bei zufälliger Datenaufteilung und bis zu 94 % bei zeitlicher Datenaufteilung. Wir sind überzeugt, dass unsere Arbeit die Entwicklung besserer Methoden und Trainingsmodelle beeinflussen und zur Lösung zunehmend komplexerer Probleme im Bereich der Cybersicherheit beitragen wird.