Lernbare Grenzgeführte adversariale Trainingsmethode

Bisherige adversarische Trainingsansätze erhöhen die Robustheit von Modellen auf Kosten der Genauigkeit auf natürlichen Daten. In diesem Paper reduzieren wir die Degradation der Genauigkeit auf natürlichen Daten. Wir nutzen die Logits eines sauberen Modells, um das Lernen eines robusteren Modells zu leiten, wobei wir berücksichtigen, dass die Logits eines gut trainierten sauberen Modells die diskriminativsten Merkmale natürlicher Daten enthalten, beispielsweise eine verallgemeinerungsfähige Klassifikationsgrenze. Unser Ansatz besteht darin, die Logits des robusten Modells, das adversarische Beispiele als Eingabe erhält, so zu beschränken, dass sie denen des sauberen Modells ähneln, das entsprechende natürliche Daten erhält. Dadurch übernimmt das robuste Modell die Klassifikationsgrenze des sauberen Modells. Darüber hinaus beobachten wir, dass diese Grenzleitung nicht nur eine hohe Genauigkeit auf natürlichen Daten bewahrt, sondern auch die Robustheit des Modells verbessert, was neue Erkenntnisse liefert und der adversarischen Forschung neue Impulse gibt. Schließlich bestätigen umfangreiche Experimente auf CIFAR-10, CIFAR-100 und Tiny ImageNet die Wirksamkeit unseres Ansatzes. Wir erreichen eine neue State-of-the-Art-Robustheit auf CIFAR-100, ohne zusätzliche reale oder synthetische Daten zu verwenden, unter Verwendung des Auto-Attack-Benchmarks \footnote{\url{https://github.com/fra31/auto-attack}}. Unser Code ist unter \url{https://github.com/dvlab-research/LBGAT} verfügbar.