SafeML : Surveillance de la sécurité des classificateurs d'apprentissage automatique par mesure de différence statistique

Assurer la sécurité et la compréhensibilité des systèmes d’apprentissage automatique (machine learning, ML) est devenu un enjeu croissant à mesure que les applications pilotées par les données s’impliquent dans des domaines critiques pour la sécurité, traditionnellement soumis à des normes de sécurité élevées qui ne peuvent être satisfaites par une approche exclusive d’essai appliquée à des systèmes « boîtes noires » inaccessibles. En particulier, l’interaction entre sécurité et sûreté constitue un défi central, car les violations de sécurité peuvent compromettre la sûreté. Cette étude propose une contribution originale en intégrant à la fois la sûreté et la sécurité dans un même cadre de protection opérationnel, fondé sur une surveillance active du comportement et du contexte opérationnel du système piloté par les données, à l’aide de mesures de distance issues de la fonction de distribution cumulée empirique (Empirical Cumulative Distribution Function, ECDF). Nous avons évalué cette approche sur des jeux de données abstraits (XOR, Spiral, Circle) ainsi que sur des jeux de données spécialisés en sécurité, dédiés à la détection d’intrusions (CICIDS2017), simulant du trafic réseau. Les mesures de détection des dérives de distribution utilisées incluent les critères de Kolmogorov-Smirnov, Kuiper, Anderson-Darling, Wasserstein, ainsi qu’une version mixte Wasserstein-Anderson-Darling. Nos résultats préliminaires indiquent que cette méthode peut constituer une base solide pour détecter la validité du contexte d’application d’un composant ML en matière de sûreté et de sécurité. Le code et les résultats préliminaires sont disponibles à l’adresse suivante : https://github.com/ISorokos/SafeML.