HyperAIHyperAI

Command Palette

Search for a command to run...

Optimierung von Relevanzkarten von Vision Transformers verbessert die Robustheit

Hila Chefer Idan Schwartz Lior Wolf

Zusammenfassung

Es wurde beobachtet, dass visuelle Klassifikationsmodelle häufig überwiegend auf den Hintergrund der Bilder angewiesen sind und dabei die Vordergrundobjekte vernachlässigen, was ihre Robustheit gegenüber Verteilungsverschiebungen beeinträchtigt. Um diesen Nachteil zu beheben, schlagen wir vor, das Relevanzsignal des Modells zu überwachen und es so zu manipulieren, dass das Modell sich auf das Vordergrundobjekt konzentriert. Dies erfolgt als Feinabstimmungsschritt, der relativ wenige Trainingsbeispiele erfordert, bestehend aus Paaren aus Bildern und ihren zugehörigen Vordergrundmasken. Konkret fördern wir, dass die Relevanzkarte des Modells (i) geringere Relevanzwerte für Hintergrundregionen aufweist, (ii) möglichst viel Information aus dem Vordergrund berücksichtigt und (iii) Entscheidungen mit hoher Zuversicht generiert. Bei Anwendung auf Vision Transformer (ViT)-Modelle zeigt sich eine deutliche Verbesserung der Robustheit gegenüber Domänenverschiebungen. Zudem können die Vordergrundmasken automatisch aus einer selbstüberwachten Variante des ViT-Modells selbst erzeugt werden; somit ist keine zusätzliche Überwachung erforderlich.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp