Cassandra : Détection des réseaux Trojanés à partir des perturbations adverses

Les réseaux neuronaux profonds sont largement déployés pour de nombreuses tâches critiques en raison de leur haute précision de classification. Dans de nombreux cas, des modèles pré-entraînés proviennent de fournisseurs qui pourraient avoir altéré le processus d'entraînement afin d'introduire des comportements malveillants, appelés « backdoors » ou « trappes », dans les modèles. Ces comportements malveillants peuvent être déclenchés à volonté par un adversaire, constituant ainsi une menace sérieuse pour le déploiement massif des modèles profonds. Nous proposons une méthode pour vérifier si un modèle pré-entraîné est compromis (Trojané) ou sain (bénin). Notre approche extrait des empreintes digitales des réseaux neuronaux sous la forme de perturbations adverses apprises à partir des gradients du réseau. L'insertion de backdoors modifie les frontières de décision du réseau, qui sont efficacement codées dans les perturbations adverses. Nous entraînons un réseau à deux flux pour la détection des backdoors à partir de perturbations globales (bornées en $L_\infty$ et $L_2$) ainsi que de régions localisées à forte énergie au sein de chaque perturbation. La première encode les frontières de décision du réseau, tandis que la seconde encode la forme inconnue du déclencheur (trigger). Nous proposons également une méthode de détection d'anomalies pour identifier la classe cible dans un réseau Trojané. Nos méthodes sont invariantes par rapport au type de déclencheur, à sa taille, aux données d'entraînement et à l'architecture du réseau. Nous évaluons nos approches sur les jeux de données MNIST, NIST-Round0 et NIST-Round1, en testant jusqu'à 1 000 modèles pré-entraînés, ce qui constitue à ce jour l'étude la plus vaste sur la détection des réseaux Trojanés, et atteignons une précision de détection supérieure à 92 %, établissant ainsi un nouveau état de l'art.