Synthese eines maschinellen Lernmodells zur Erkennung von Computerangriffen basierend auf dem CICIDS2017-Datensatz
Die vorliegende Arbeit befasst sich mit der Konstruktion und praktischen Implementierung eines Modells zur Erkennung von Computerangriffen basierend auf Methoden des maschinellen Lernens. Unter den verfügbaren öffentlichen Datensätzen wurde der CICIDS2017-Datensatz als besonders relevant ausgewählt. Für diesen Datensatz wurden detaillierte Verfahren zur Datenaufbereitung und Stichprobenauswahl entwickelt. Um die Rechenzeit zu reduzieren, wurde im Trainingsset lediglich eine einzige Angriffsklasse (Brute-Force-Angriffe, XSS, SQL-Injection) beibehalten. Der Prozess der Konstruktion des Merkmalsraums wird schrittweise beschrieben, wodurch die Dimensionen signifikant reduziert werden konnten – von 85 auf die zehn wichtigsten Merkmale. Eine Qualitätsbewertung der zehn gängigsten maschinellen Lernmodelle wurde auf dem präprozessierten Datensatz durchgeführt. Unter den Modellen, die die besten Ergebnisse erzielten (k-nächste Nachbarn, Entscheidungsbaum, Random Forest, AdaBoost, logistische Regression), wurde aufgrund der geringsten Ausführungszeit die Auswahl des Random Forest-Modells gerechtfertigt. Eine annähernd optimale Auswahl der Hyperparameter wurde durchgeführt, was eine Verbesserung der Modellqualität im Vergleich zu bisher veröffentlichten Forschungsergebnissen ermöglichte. Das synthetisierte Angriffserkennungsmodell wurde auf realem Netzwerkverkehr getestet. Das Modell zeigte seine Gültigkeit nur unter der Voraussetzung, dass es auf Daten trainiert wurde, die in einem spezifischen Netzwerk erfasst wurden, da wichtige Merkmale von der physischen Netzwerkstruktur und den Einstellungen der verwendeten Geräte abhängen. Es wurde geschlossen, dass maschinelle Lernmethoden zur Erkennung von Computerangriffen unter Berücksichtigung dieser Einschränkungen eingesetzt werden können.