Équilibre théoriquement fondé entre robustesse et précision

Nous identifions un compromis entre robustesse et précision qui sert de principe directeur dans la conception de défenses contre les exemples adverses. Bien que ce problème ait été largement étudié empiriquement, beaucoup reste encore inconnu concernant la théorie sous-jacente à ce compromis. Dans cette étude, nous décomposons l'erreur de prédiction pour les exemples adverses (erreur robuste) comme la somme de l'erreur naturelle (d'classification) et de l'erreur frontière, et nous fournissons une borne supérieure différentiable en utilisant la théorie de la perte calibrée par classification, qui est montrée être la plus serrée des bornes supérieures possibles uniformément sur toutes les distributions de probabilité et tous les prédicteurs mesurables. Inspirés par notre analyse théorique, nous concevons également une nouvelle méthode de défense, appelée TRADES, pour équilibrer la robustesse adversaire avec la précision. Notre algorithme proposé se distingue expérimentalement sur des jeux de données réels. Cette méthodologie constitue le fondement de notre participation au défi NeurIPS 2018 Adversarial Vision, où nous avons remporté le premier prix parmi environ 2 000 soumissions, surpassant l'approche du deuxième classé de 11,41 % en termes de distance moyenne d'altération $\ell_2$.