Multimodale Anomalieerkennung in der Industrie durch hybride Fusion

Die 2D-basierte industrielle Anomalieerkennung wurde bereits ausführlich diskutiert, jedoch bleiben viele unberührte Bereiche bei der multimodalen industriellen Anomalieerkennung auf Basis von 3D-Punktwolken und RGB-Bildern. Bestehende multimodale Methoden zur Anomalieerkennung fügen die multimodalen Merkmale direkt zusammen, was zu einer starken Störung zwischen den Merkmalen führt und die Erkennungsleistung beeinträchtigt. In dieser Arbeit schlagen wir Multi-3D-Memory (M3DM) vor, eine neuartige multimodale Anomalieerkennungsmethode mit einem hybriden Fusionsverfahren: Zunächst entwickeln wir eine unsupervisierte Merkmalsfusion mit patchweiser kontrastiver Lernmethode, um die Interaktion verschiedener Modalitätsmerkmale zu fördern; anschließend verwenden wir eine Entscheidungsebene-Fusion mit mehreren Speicherbänken, um Informationsverluste zu vermeiden und zusätzliche Neuheitklassifizierer zur endgültigen Entscheidung einzusetzen. Wir schlagen zudem eine Punktmusteranpassungsoperation vor, um die Ausrichtung der Punktwolken- und RGB-Merkmale zu verbessern. Umfangreiche Experimente zeigen, dass unser multimodales Modell für die industrielle Anomalieerkennung sowohl in Bezug auf die Erkennungs- als auch auf die Segmentierungsgenauigkeit den aktuellen Stand der Technik (SOTA) auf dem MVTec-3D AD-Datensatz übertrifft. Der Quellcode ist unter https://github.com/nomewang/M3DM verfügbar.