vor 17 Tagen

Few-Shot-Teilsegmentierung enthüllt zusammensetzende Logik für industrielle Anomalieerkennung

Soopil Kim, Sion An, Philip Chikontwe, Myeongkyun Kang, Ehsan Adeli, Kilian M. Pohl, Sang Hyun Park

Abstract

Logische Anomalien (LA) beziehen sich auf Daten, die logische Grundbedingungen verletzen, beispielsweise die Menge, Anordnung oder Zusammensetzung von Komponenten innerhalb eines Bildes. Die genaue Erkennung solcher Anomalien erfordert Modelle, die über Segmentierung in der Lage sind, verschiedene Komponententypen zu verstehen und zu verarbeiten. Die Erstellung von pixelgenauen Annotationen für semantische Segmentierung ist jedoch zeitaufwendig und kostspielig. Obwohl es bereits einige vorherige Few-Shot- oder unsupervisierte Co-Part-Segmentierungs-Algorithmen gibt, versagen diese häufig bei Bildern mit industriellen Objekten. Diese Bilder weisen Komponenten mit ähnlichen Texturen und Formen auf, wodurch eine präzise Unterscheidung besonders herausfordernd ist. In dieser Studie stellen wir ein neuartiges Komponenten-Segmentierungsmodell für die LA-Erkennung vor, das wenige gelabelte Proben sowie ungelabelte Bilder nutzt, die gemeinsame logische Einschränkungen erfüllen. Um eine konsistente Segmentierung über ungelabelte Bilder hinweg zu gewährleisten, kombinieren wir eine Histogramm-Abgleichverlustfunktion mit einem Entropieverlust. Da Segmentierungsvorhersagen eine entscheidende Rolle spielen, schlagen wir vor, sowohl die lokale als auch die globale Gültigkeitsdetektion von Proben zu verbessern, indem wir mittels dreier Speicherbanken zentrale Aspekte aus der visuellen Semantik erfassen: Klassen-Histogramme, Komponentenzusammensetzungs-Embeddings und Patch-Level-Repräsentationen. Für eine effektive LA-Erkennung entwickeln wir eine adaptive Skalierungsstrategie, um die Anomalie-Scores aus verschiedenen Speicherbanken im Inferenzprozess zu standardisieren. Umfangreiche Experimente auf dem öffentlichen Benchmark MVTec LOCO AD zeigen, dass unsere Methode eine AUROC von 98,1 % bei der LA-Erkennung erreicht – im Vergleich zu 89,6 % bei konkurrierenden Methoden.