Distillation de la robustesse aux données hors distribution à partir de modèles fondamentaux vision-langage

Nous proposons un cadre conceptuellement simple et léger visant à améliorer la robustesse des modèles visuels grâce à la combinaison de la distillation de connaissances et de l’augmentation de données. Nous remettons en question l’hypothèse selon laquelle les modèles plus grands constituent nécessairement de meilleurs enseignants, en démontrant des gains significatifs en robustesse hors distribution lors de la distillation à partir de modèles fondamentaux préentraînés. À la suite de cette observation, nous introduisons la Distillation Adversaire Discrete (DAD), qui exploite un enseignant robuste pour générer des exemples adverses, et un VQGAN pour les discrétiser, produisant ainsi des échantillons plus informatifs que les techniques classiques d’augmentation de données. Nous fournissons un cadre théorique pour l’utilisation d’un enseignant robuste dans le cadre de la distillation de connaissances combinée à l’augmentation de données, et démontrons des améliorations marquées en robustesse hors distribution et en précision sur des données propres, sur diverses architectures d’élèves. Notamment, notre méthode impose un surcoût computationnel négligeable par rapport à des techniques similaires, et peut être facilement combinée à d’autres méthodes d’augmentation de données pour des gains supplémentaires.