Les modèles ImageNet robustes aux attaques adverses se transfèrent-ils mieux ?

Le transfert d’apprentissage est un paradigme largement utilisé en apprentissage profond, dans lequel des modèles pré-entraînés sur des jeux de données standards peuvent être efficacement adaptés à des tâches spécifiques en aval. En général, plus un modèle pré-entraîné est performant, meilleur est son résultat en transfert, ce qui suggère que la précision initiale constitue un élément clé de la performance en transfert d’apprentissage. Dans ce travail, nous identifions un autre aspect important : nous constatons que les modèles robustes aux attaques adverses, bien qu’ayant une précision initiale moindre, obtiennent souvent de meilleurs résultats que leurs homologues entraînés de manière standard lorsqu’ils sont utilisés pour le transfert d’apprentissage. Plus précisément, nous nous concentrons sur des classifieurs robustes à l’adversaire sur ImageNet, et montrons qu’ils permettent d’obtenir une précision améliorée sur une suite standard de tâches de classification en aval. Une analyse approfondie révèle d’autres différences entre les modèles robustes et les modèles standard dans le contexte du transfert d’apprentissage. Nos résultats sont cohérents avec (et même renforcent) les hypothèses récentes selon lesquelles la robustesse conduit à des représentations de caractéristiques améliorées. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/Microsoft/robust-models-transfer.