HyperAIHyperAI
vor 17 Tagen

LADMIM: Logische Anomalieerkennung mit masked image modeling im diskreten Latentraum

Shunsuke Sakai, Tatushito Hasegawa, Makoto Koshino
LADMIM: Logische Anomalieerkennung mit masked image modeling im diskreten Latentraum
Abstract

Die Erkennung von Anomalien wie falschen Objektkombinationen oder Abweichungen in deren Positionen stellt eine herausfordernde Aufgabe im Bereich der industriellen Anomalieerkennung dar. Traditionelle Methoden konzentrieren sich hauptsächlich auf lokale Merkmale normaler Bilder, beispielsweise Kratzer oder Verschmutzungen, wodurch die Erkennung von Anomalien in den Beziehungen zwischen Merkmalen erschwert wird. Masked Image Modeling (MIM) ist eine selbstüberwachte Lernmethode, die die Merkmalsdarstellung maskierter Regionen in einem Bild vorhersagt. Zur Rekonstruktion der maskierten Bereiche ist es notwendig, zu verstehen, wie das Bild zusammengesetzt ist, was die Lernung von Beziehungen zwischen Merkmalen innerhalb des Bildes ermöglicht. Wir schlagen einen neuen Ansatz vor, der die Eigenschaften von MIM gezielt nutzt, um logische Anomalien effektiv zu detektieren. Um die Unscharfe bei der rekonstruierten Bildregion zu reduzieren, ersetzen wir die Vorhersage einzelner Pixel durch die Vorhersage der Wahrscheinlichkeitsverteilung diskreter latenter Variablen der maskierten Regionen mittels eines Tokenizers. Wir haben den vorgeschlagenen Ansatz am Datensatz MVTecLOCO evaluiert und erzielten dabei einen durchschnittlichen AUC-Wert von 0,867, der traditionelle, auf Rekonstruktion oder Distillation basierende Methoden übertrifft.