Purification adversaire guidée par le langage

La purification adversarielle basée sur des modèles génératifs démontre des performances solides en matière de défense contre les attaques adversariales. Ces méthodes sont indépendantes du classificateur et des attaques, ce qui en fait des approches polyvalentes, bien qu’elles soient souvent très coûteuses en termes de calcul. Les progrès récents réalisés dans les modèles de diffusion et les réseaux de score ont amélioré la génération d’images, et par conséquent, la purification adversarielle. Une autre catégorie particulièrement efficace de méthodes de défense adversarielle, appelée entraînement adversarial, nécessite une connaissance précise des vecteurs d’attaque, obligeant à un entraînement étendu sur des exemples adversariaux. Pour surmonter ces limitations, nous proposons un nouveau cadre, nommé purification adversarielle guidée par le langage (LGAP), qui exploite des modèles de diffusion pré-entraînés ainsi que des générateurs de légendes afin de se défendre contre les attaques adversariales. Étant donné une image d’entrée, notre méthode génère d’abord une légende, qui est ensuite utilisée pour guider le processus de purification adversarielle via un réseau de diffusion. Notre approche a été évaluée contre des attaques adversariales puissantes, confirmant son efficacité dans l’amélioration de la robustesse adversarielle. Nos résultats indiquent que LGAP surpasser la plupart des techniques existantes de défense adversarielle sans nécessiter d’entraînement spécialisé du réseau. Cela met en évidence la généralisation des modèles entraînés sur de grandes bases de données, ouvrant ainsi une voie prometteuse pour des recherches futures.