Command Palette
Search for a command to run...
VT-ADL: Ein Vision Transformer Netzwerk für die Bildanomalieerkennung und -lokalisierung
VT-ADL: Ein Vision Transformer Netzwerk für die Bildanomalieerkennung und -lokalisierung
Pankaj Mishra Riccardo Verk Daniele Fornasier Claudio Piciarelli Gian Luca Foresti
Zusammenfassung
Wir präsentieren ein auf Transformers basierendes Netzwerk zur Bildanomalieerkennung und -lokalisierung. Unser vorgeschlagenes Modell kombiniert einen rekonstruktionsbasierten Ansatz mit Patch-Embedding. Die Verwendung von Transformer-Netzwerken ermöglicht die Erhaltung der räumlichen Information der eingebetteten Patch-Elemente, die anschließend von einem Gauss’schen Mischdichtennetzwerk zur Lokalisierung anomaler Bereiche verarbeitet werden. Zudem veröffentlichen wir BTAD, einen realen industriellen Anomaliedatensatz aus der Praxis. Unsere Ergebnisse werden mit anderen state-of-the-art-Algorithmen anhand öffentlich verfügbarer Datensätze wie MNIST und MVTec verglichen.