Industrielle Anomalieerkennung und -lokalisierung mittels schwach beschrifteten Residual-Transformern

Neuere Fortschritte in der industriellen Anomalieerkennung (Anomaly Detection, AD) haben gezeigt, dass die Einbeziehung einer geringen Anzahl an anomalen Proben während des Trainings die Genauigkeit erheblich verbessern kann. Dieser Leistungsfortschritt geht jedoch oft mit einem erheblichen Aufwand an manueller Annotation einher, was für viele praktische Anwendungen unpraktikabel ist. In diesem Artikel stellen wir einen neuartigen Ansatz vor, den Weakly-supervised RESidual Transformer (WeakREST), der hohe Genauigkeit bei der Anomalieerkennung erzielt, während gleichzeitig der Bedarf an manueller Annotation minimiert wird. Zunächst reformulieren wir die Aufgabe der pixelgenauen Anomalie-Lokalisierung in ein blockbasiertes Klassifikationsproblem. Anschließend führen wir eine residualbasierte Merkmalsdarstellung namens Positional Fast Anomaly Residuals (PosFAR) ein, die anomale Muster effizienter erfassen kann. Um diese Merkmale optimal zu nutzen, adaptieren wir den Swin Transformer zur verbesserten Anomalieerkennung und -lokalisierung. Darüber hinaus schlagen wir eine schwach beschriftete Methode vor, die Beschriftungen in Form von Bounding Boxes und Bildtags verwendet, um anomale Regionen zu definieren. Dieser Ansatz schafft einen semi-supervised Lernkontext, der die Abhängigkeit von präzisen pixelgenauen Labels reduziert. Um den Lernprozess weiter zu verbessern, entwickeln wir einen neuen Algorithmus namens ResMixMatch, der in der Lage ist, die Wechselwirkungen zwischen schwachen Labels und residualbasierten Darstellungen effektiv zu handhaben.Auf dem Benchmark-Datensatz MVTec-AD erreicht unsere Methode eine durchschnittliche Präzision (Average Precision, AP) von $83.0\%$, was die bisher beste Leistung von $82.7\%$ im unsupervised Setting übertrifft. Im supervisierten AD-Setting erzielt WeakREST eine AP von $87.6\%$, was die vorherige Bestleistung von $86.0\%$ übertrifft. Besonders hervorzuheben ist, dass WeakREST selbst bei schwächeren Annotationen wie Bounding Boxes die Leistung führender Methoden, die auf pixelgenauer Beschriftung basieren, übertrifft: Mit einer AP von $87.1\%$ gegenüber der vorherigen Bestleistung von $86.0\%$ auf MVTec-AD demonstriert unser Ansatz erhebliche Vorteile bei reduziertem Annotationaufwand.