HyperAIHyperAI
vor 11 Tagen

Attributionsbasierte Robustheits-Training mittels räumlicher Ausrichtung von Eingabegradianten

Mayank Singh, Nupur Kumari, Puneet Mangla, Abhishek Sinha, Vineeth N Balasubramanian, Balaji Krishnamurthy
Attributionsbasierte Robustheits-Training mittels räumlicher Ausrichtung von Eingabegradianten
Abstract

Die Interpretierbarkeit ist ein sich entwickelndes Forschungsfeld im Bereich des vertrauenswürdigen maschinellen Lernens. Für eine sichere Bereitstellung von maschinellen Lernsystemen ist es zwingend notwendig, dass sowohl die Vorhersage als auch ihre Erklärung zuverlässig und robust sind. Kürzlich wurde gezeigt, dass Erklärungen leicht durch hinzugefügte, visuell kaum wahrnehmbare Störungen im Eingabebild manipuliert werden können, ohne dass die Vorhersage des Modells verändert wird. In dieser Arbeit untersuchen wir das Problem der Attributionsrobustheit (d. h. Modelle mit robusten Erklärungen), indem wir eine obere Schranke für die Vulnerabilität der Attributionskarte in Bezug auf die räumliche Korrelation zwischen dem Eingabebild und der zugehörigen Erklärungskarte herleiten. Wir schlagen eine Trainingsmethodik vor, die robuste Merkmale lernt, indem sie diese obere Schranke mittels eines Soft-Margin-Triplet-Loss minimiert. Unsere Methode zur robusten Attributionsausbildung („ART“) erreicht auf mehreren Standarddatensätzen – nämlich SVHN, CIFAR-10 und GTSRB – eine neue State-of-the-Art-Leistung in Bezug auf die Attributionsrobustheit mit einer Steigerung von etwa 6–18 %. Darüber hinaus zeigen wir die Nützlichkeit des vorgeschlagenen robusten Trainingsansatzes („ART“) bei der nachgelagerten Aufgabe der schwach überwachten Objektpositionierung, indem wir auf dem CUB-200-Datensatz eine neue State-of-the-Art-Leistung erzielen.

Attributionsbasierte Robustheits-Training mittels räumlicher Ausrichtung von Eingabegradianten | Neueste Forschungsarbeiten | HyperAI