Ensemble tout, partout : agrégation multi-échelle pour une robustesse aux attaques adverses

Les exemples adverses posent un défi majeur en matière de robustesse, de fiabilité et d’alignement des réseaux de neurones profonds. Nous proposons une nouvelle approche facile à utiliser permettant d’obtenir des représentations de haute qualité, conduisant à une robustesse contre les attaques adverses, grâce à l’utilisation de représentations d’entrée multi-résolution et d’un auto-ensemblage dynamique des prédictions des couches intermédiaires. Nous démontrons que les prédictions des couches intermédiaires présentent une robustesse intrinsèque aux attaques adverses conçues pour tromper le classificateur complet, et proposons un mécanisme d’agrégation robuste basé sur une enchère de Vickrey que nous appelons \textit{CrossMax}, permettant d’ensemblage dynamique de ces prédictions. En combinant des entrées multi-résolution et un ensemblage robuste, nous obtenons une robustesse significative contre les attaques adverses sur les jeux de données CIFAR-10 et CIFAR-100, sans recours à une formation adversaire ni à des données supplémentaires. Nous atteignons une précision adverses d’environ 72 % (CIFAR-10) et d’environ 48 % (CIFAR-100) sur le benchmark RobustBench AutoAttack ($L_\infty=8/255$), en utilisant un modèle ResNet152 pré-entraîné sur ImageNet et finement ajusté. Ce résultat est comparable aux trois meilleurs modèles sur CIFAR-10 et représente une amélioration de +5 % par rapport à l’approche actuelle la plus performante sur CIFAR-100. En ajoutant une simple formation adversaire, nous atteignons environ 78 % sur CIFAR-10 et environ 51 % sur CIFAR-100, améliorant respectivement l’état de l’art de 5 % et 9 %, avec des gains plus importants sur le jeu de données plus difficile. Nous validons notre approche à travers des expériences étendues et fournissons des éclaircissements sur l’interaction entre la robustesse adverses et la nature hiérarchique des représentations profondes. Nous montrons que des attaques basées sur les gradients simples appliquées à notre modèle produisent des images interprétables par l’humain, correspondant aux classes cibles, ainsi que des modifications d’image clairement interprétables. En outre, en exploitant notre prior multi-résolution, nous transformons des classifieurs pré-entraînés et des modèles CLIP en générateurs d’images contrôlables, et développons des attaques transférables efficaces sur de grands modèles vision-langage.