Das Ausdünnen von Robustheit gegenüber außerhalb der Verteilung liegenden Daten aus Vision-Sprache-Grundmodellen

Wir stellen einen konzeptionell einfachen und leichtgewichtigen Ansatz zur Verbesserung der Robustheit von Vision-Modellen vor, der die Kombination von Knowledge Distillation und Daten-Augmentation nutzt. Wir untersuchen die Annahme, dass größere Modelle nicht zwangsläufig bessere Lehrer sind, und zeigen, dass sich durch die Distillation von vortrainierten Foundation-Modellen signifikante Verbesserungen der Robustheit gegenüber Ausgangsverteilungen (out-of-distribution) erzielen lassen. Ausgehend von diesem Befund schlagen wir Discrete Adversarial Distillation (DAD) vor, das einen robusten Lehrer nutzt, um adversarielle Beispiele zu generieren, und ein VQGAN zur Diskretisierung dieser Beispiele einsetzt, wodurch informativere Samples entstehen als bei herkömmlichen Techniken der Daten-Augmentation. Wir entwickeln einen theoretischen Rahmen für den Einsatz eines robusten Lehrers im Kontext der Knowledge Distillation mit Daten-Augmentation und demonstrieren erhebliche Verbesserungen sowohl in Bezug auf die Robustheit gegenüber Ausgangsverteilungen als auch auf die Genauigkeit bei sauberen Daten über verschiedene Student-Architekturen hinweg. Insbesondere weist unsere Methode im Vergleich zu ähnlichen Ansätzen nur geringfügige zusätzliche Rechenkosten auf und lässt sich problemlos mit anderen Daten-Augmentationstechniken kombinieren, um weitere Verbesserungen zu erzielen.