WinCLIP: Zero- und Few-Shot Anomalie-Klassifikation und -Segmentierung

Visuelle Anomalieklassifikation und -segmentierung sind entscheidend für die Automatisierung industrieller Qualitätsprüfungen. Die vorangegangene Forschung konzentrierte sich darauf, für jede Qualitätsprüfungsaufgabe spezifische Modelle zu trainieren, was Aufgaben-spezifische Bilder und Annotationen erfordert. In diesem Artikel verlassen wir diesen Ansatz und behandeln Anomalieklassifikation und -segmentierung im Zero-Shot- und Few-Normal-Shot-Szenario. Kürzlich hat CLIP, ein vision-sprachliches Modell, mit herausragender Allgemeingültigkeit und konkurrenzfähiger Leistung im Zero- und Few-Shot-Bereich im Vergleich zu vollständig überwachten Ansätzen revolutionäre Fortschritte gezeigt. Dennoch erweist sich CLIP bei Anomalieklassifikations- und -segmentierungsaufgaben als unzureichend. Daher schlagen wir WinCLIP vor – ein fensterbasiertes CLIP-Modell mit (1) einer kompositorischen Ensemble-Strategie auf Basis von Zustandsbeschreibungen und Prompt-Vorlagen sowie (2) einer effizienten Extraktion und Aggregation von Fenster-/Patch-/Bild-Ebenen-Features, die mit Textinformationen ausgerichtet sind. Außerdem führen wir die Erweiterung WinCLIP+ für das Few-Normal-Shot-Szenario ein, das ergänzende Informationen aus normalen Bildern nutzt. Auf MVTec-AD (bzw. VisA) erreicht WinCLIP ohne weitere Feinabstimmung eine AUROC von 91,8 %/85,1 % (78,1 %/79,6 %) bei Zero-Shot-Anomalieklassifikation und -segmentierung, während WinCLIP+ bei 1-Normal-Shot eine AUROC von 93,1 %/95,2 % (83,8 %/96,4 %) erreicht und damit die derzeitigen State-of-the-Art-Methoden deutlich übertrifft.