il y a 17 jours

Améliorer la représentation visuelle par une formation adversaire discrète

Xiaofeng Mao, Yuefeng Chen, Ranjie Duan, Yao Zhu, Gege Qi, Shaokai Ye, Xiaodan Li, Rong Zhang, Hui Xue

Résumé

L’entraînement adversaire (AT), généralement considéré comme l’une des approches les plus efficaces pour se prémunir contre les exemples adverses, nuit souvent fortement aux performances standards, limitant ainsi son utilité dans les applications industrielles à grande échelle. De manière surprenante, ce phénomène est exactement inverse dans les tâches de traitement du langage naturel (NLP), où l’AT peut même améliorer la généralisation. Nous observons que les avantages de l’AT dans les tâches NLP proviennent probablement de l’espace d’entrée discret et symbolique. Pour tirer parti de cet avantage propre à l’AT en NLP, nous proposons une méthode appelée Discrete Adversarial Training (DAT). DAT utilise VQGAN pour transformer les données d’image en entrées discrètes ressemblant au texte, c’est-à-dire en « mots visuels ». Ensuite, elle minimise le risque maximal sur ces images discrètes soumises à des perturbations adverses symboliques. Nous fournissons également une explication fondée sur la distribution pour illustrer l’efficacité de DAT. En tant que technique plug-and-play pour améliorer les représentations visuelles, DAT obtient des progrès significatifs sur plusieurs tâches, notamment la classification d’images, la détection d’objets et l’apprentissage auto-supervisé. En particulier, un modèle pré-entraîné avec Masked Auto-Encoding (MAE) puis affiné par notre DAT, sans recourir à des données supplémentaires, atteint 31,40 mCE sur ImageNet-C et 32,77 % de précision top-1 sur Stylized-ImageNet, établissant ainsi un nouveau record d’état de l’art. Le code sera disponible à l’adresse suivante : https://github.com/alibaba/easyrobust.