Ein Whac-A-Mole-Dilemma: Kurzschlüsse kommen mehrfach vor, wobei die Minderung eines die anderen verstärkt

Maschinelles Lernen hat sich als in der Lage erwiesen, sogenannte „Shortcuts“ zu erlernen – unerwünschte Entscheidungsregeln, die sich nicht verallgemeinern lassen und somit die Zuverlässigkeit von Modellen untergraben. Bisherige Ansätze adressieren dieses Problem unter der fragwürdigen Annahme, dass in den Trainingsdaten lediglich ein einziger Shortcut existiert. In realen Bildern hingegen sind mehrere visuelle Hinweise – von Hintergrund über Textur bis hin zu anderen Merkmalen – häufig gleichzeitig vorhanden. Ein zentraler Schritt zur Verbesserung der Zuverlässigkeit von visuellen Systemen besteht darin, zu verstehen, ob bestehende Methoden in der Lage sind, mehrere Shortcuts gleichzeitig zu überwinden, oder ob sie in eine Whac-A-Mole-Situation geraten, bei der die Reduktion eines Shortcuts die Abhängigkeit von anderen verstärkt. Um diese Lücke zu schließen, stellen wir zwei Benchmarks vor: 1) UrbanCars, eine Datensammlung mit präzise kontrollierten spurious Cues, und 2) ImageNet-W, eine Evaluationsmenge basierend auf ImageNet, die auf einem Shortcut beruht, den wir entdeckt haben und der fast jedes moderne visuelle Modell beeinflusst. Neben Textur und Hintergrund ermöglicht ImageNet-W die Untersuchung mehrerer gleichzeitig auftretender Shortcuts, die sich aus dem Training auf natürliche Bilder ergeben. Wir stellen fest, dass Computer-Vision-Modelle – einschließlich großer Foundation-Modelle – unabhängig von Trainingsdatensatz, Architektur und Supervision Schwierigkeiten haben, wenn mehrere Shortcuts vorhanden sind. Selbst Methoden, die explizit zur Bekämpfung von Shortcuts entwickelt wurden, geraten in ein Whac-A-Mole-Dilemma. Um diese Herausforderung zu meistern, schlagen wir Last Layer Ensemble vor – eine einfache, aber effektive Methode, die mehrere Shortcuts ohne Whac-A-Mole-Verhalten reduziert. Unsere Ergebnisse heben die Notwendigkeit einer effektiven Mehrfach-Shortcuts-Behandlung als bisher übersehene, entscheidende Herausforderung hervor, die für die Weiterentwicklung zuverlässiger visueller Systeme unerlässlich ist. Die Datensätze und der Code sind öffentlich verfügbar: https://github.com/facebookresearch/Whac-A-Mole.