GeneralAD: Anomalieerkennung über Domänen hinweg durch Aufmerksamkeit auf verzerrte Merkmale

Im Bereich der Anomalieerkennung erzielen Methoden oft herausragende Ergebnisse entweder in hochwertigen semantischen oder in niedrigschwelligeren industriellen Benchmarks, selten jedoch eine übergeordnete Leistungsfähigkeit über Domänen hinweg. Semantische Anomalien sind Neuheiten, die sich im Sinne von dem Trainingsdatensatz unterscheiden, beispielsweise unerkannte Objekte in autonomen Fahrzeugen. Im Gegensatz dazu sind industrielle Anomalien subtile Defekte, die die semantische Bedeutung erhalten, wie beispielsweise Risse in Flugzeugkomponenten. In diesem Artikel präsentieren wir GeneralAD, einen Anomalieerkennungsrahmen, der in semantischen, nahe-distributionsnahen und industriellen Szenarien mit minimalen anpassungsbedürftigen Einstellungen für jedes einzelne Task funktioniert. Unser Ansatz nutzt die inhärente Struktur von Vision Transformers, die auf Bildpatches trainiert sind, wodurch sichergestellt wird, dass die letzten versteckten Zustände eine patchbasierte Struktur beibehalten. Wir schlagen ein neuartiges, selbstüberwachtes Modul zur Generierung von Anomalien vor, das einfache Operationen wie das Hinzufügen von Rauschen und das Umordnen von Patch-Features nutzt, um künstliche, pseudo-abnormale Proben zu konstruieren. Diese Features werden einem auf Aufmerksamkeit basierenden Diskriminator zugeführt, der darauf trainiert wird, jeden Patch in dem Bild zu bewerten. Auf diese Weise kann unsere Methode sowohl Anomalien auf Bildebene präzise identifizieren als auch interpretierbare Anomaliekarten erzeugen. Wir haben unseren Ansatz umfassend an zehn Datensätzen evaluiert und erreichten dabei state-of-the-art-Ergebnisse in sechs Fällen sowie vergleichbare Leistungen in den verbleibenden vier Fällen sowohl für die Lokalisierung als auch für die Erkennung von Anomalien.