Apprentissage par guide de frontière adaptatif adversarial

L'entraînement adversarial précédent améliore la robustesse du modèle au détriment de sa précision sur les données naturelles. Dans cet article, nous réduisons la dégradation de la précision sur les données naturelles. Nous utilisons les logits du modèle propre (clean model) pour guider l'apprentissage d'un autre modèle robuste, en tenant compte du fait que les logits provenant d'un modèle bien entraîné sur des données naturelles encapsulent les caractéristiques les plus discriminantes des données naturelles, telles que la frontière de classification généralisable. Notre approche consiste à contraindre les logits du modèle robuste, lorsqu'il est soumis à des exemples adverses, afin qu'ils soient similaires à ceux du modèle propre alimenté par les données naturelles correspondantes. Cela permet au modèle robuste de hériter de la frontière de classification du modèle propre. De plus, nous observons que cette guidance par la frontière non seulement préserve une haute précision sur les données naturelles, mais contribue également à améliorer la robustesse du modèle, offrant ainsi de nouvelles perspectives et facilitant les progrès dans la communauté des modèles adversariaux. Enfin, des expériences étendues sur CIFAR-10, CIFAR-100 et Tiny ImageNet confirment l'efficacité de notre méthode. Nous atteignons une nouvelle meilleure performance (state-of-the-art) en robustesse sur CIFAR-100, sans recourir à des données réelles ou synthétiques supplémentaires, selon le benchmark auto-attack \footnote{\url{https://github.com/fra31/auto-attack}}. Notre code est disponible à l'adresse \url{https://github.com/dvlab-research/LBGAT}.