HyperAIHyperAI
vor 17 Tagen

Optimierung von Relevanzkarten von Vision Transformers verbessert die Robustheit

Hila Chefer, Idan Schwartz, Lior Wolf
Optimierung von Relevanzkarten von Vision Transformers verbessert die Robustheit
Abstract

Es wurde beobachtet, dass visuelle Klassifikationsmodelle häufig überwiegend auf den Hintergrund der Bilder angewiesen sind und dabei die Vordergrundobjekte vernachlässigen, was ihre Robustheit gegenüber Verteilungsverschiebungen beeinträchtigt. Um diesen Nachteil zu beheben, schlagen wir vor, das Relevanzsignal des Modells zu überwachen und es so zu manipulieren, dass das Modell sich auf das Vordergrundobjekt konzentriert. Dies erfolgt als Feinabstimmungsschritt, der relativ wenige Trainingsbeispiele erfordert, bestehend aus Paaren aus Bildern und ihren zugehörigen Vordergrundmasken. Konkret fördern wir, dass die Relevanzkarte des Modells (i) geringere Relevanzwerte für Hintergrundregionen aufweist, (ii) möglichst viel Information aus dem Vordergrund berücksichtigt und (iii) Entscheidungen mit hoher Zuversicht generiert. Bei Anwendung auf Vision Transformer (ViT)-Modelle zeigt sich eine deutliche Verbesserung der Robustheit gegenüber Domänenverschiebungen. Zudem können die Vordergrundmasken automatisch aus einer selbstüberwachten Variante des ViT-Modells selbst erzeugt werden; somit ist keine zusätzliche Überwachung erforderlich.

Optimierung von Relevanzkarten von Vision Transformers verbessert die Robustheit | Neueste Forschungsarbeiten | HyperAI