HyperAIHyperAI
il y a 2 mois

Vers des modèles d'apprentissage profond résistants aux attaques adverses

Aleksander Madry; Aleksandar Makelov; Ludwig Schmidt; Dimitris Tsipras; Adrian Vladu
Vers des modèles d'apprentissage profond résistants aux attaques adverses
Résumé

Des travaux récents ont démontré que les réseaux de neurones profonds sont vulnérables aux exemples adverses --- des entrées qui sont presque indiscernables des données naturelles et pourtant classifiées incorrectement par le réseau. En effet, certaines des dernières découvertes suggèrent que l'existence d'attaques adverses pourrait être une faiblesse inhérente des modèles d'apprentissage profond. Pour résoudre ce problème, nous étudions la robustesse aux attaques adverses des réseaux de neurones à travers l'optimisation robuste. Cette approche nous offre une vue large et unificatrice sur une grande partie du travail précédent sur ce sujet. Sa nature fondamentale nous permet également d'identifier des méthodes pour l'entraînement et l'attaque de réseaux de neurones qui sont fiables et, dans un certain sens, universelles. En particulier, elles spécifient une garantie de sécurité concrète qui protégerait contre tout adversaire. Ces méthodes nous permettent d'entraîner des réseaux avec une résistance considérablement améliorée face à une large gamme d'attaques adverses. Elles suggèrent également la notion de sécurité contre un adversaire de premier ordre comme une garantie de sécurité naturelle et large. Nous pensons que la robustesse face à ces classes bien définies d'adversaires est une étape importante vers des modèles d'apprentissage profond pleinement résistants. Le code source et les modèles pré-entraînés sont disponibles sur https://github.com/MadryLab/mnist_challenge et https://github.com/MadryLab/cifar10_challenge.

Vers des modèles d'apprentissage profond résistants aux attaques adverses | Articles de recherche récents | HyperAI