Synthèse d'un modèle d'apprentissage automatique pour la détection d'attaques informatiques basée sur le jeu de données CICIDS2017
Ce papier traite de la conception et de la mise en œuvre pratique d’un modèle de détection d’attaques informatiques fondé sur des méthodes d’apprentissage automatique. Parmi les jeux de données publics disponibles, celui de CICIDS2017 a été choisi comme le plus pertinent. Pour ce jeu de données, des procédures détaillées de prétraitement des données et d’échantillonnage ont été développées. Afin de réduire le temps de calcul, seul le type d’attaque informatique (force brute, XSS, injection SQL) a été conservé dans l’ensemble d’entraînement. La construction de l’espace des caractéristiques (features) est décrite de manière séquentielle, permettant ainsi de réduire significativement sa dimension, passant de 85 à 10 caractéristiques les plus pertinentes. Une évaluation de la qualité de dix modèles d’apprentissage automatique couramment utilisés a été réalisée sur le jeu de données prétraité. Parmi les modèles (algorithmes) affichant les meilleurs résultats (k-plus proches voisins, arbre de décision, forêt aléatoire, AdaBoost, régression logistique), le choix du modèle de forêt aléatoire s’est justifié compte tenu du temps d’exécution minimal. Une sélection quasi-optimale des hyperparamètres a été effectuée, permettant d’améliorer la performance du modèle par rapport aux résultats publiés précédemment. Le modèle synthétisé de détection d’attaques a été testé sur un trafic réseau réel. Les résultats montrent que le modèle est valide uniquement lorsqu’il est entraîné sur des données collectées dans un réseau spécifique, car les caractéristiques essentielles dépendent de la structure physique du réseau et des paramètres des équipements utilisés. On en conclut qu’il est possible d’utiliser des méthodes d’apprentissage automatique pour détecter les attaques informatiques, à condition de prendre en compte ces contraintes.