HyperAIHyperAI
il y a 3 mois

Bloc auto-supervisé à convolution masquée et transformateur pour la détection d’anomalies

Neelu Madan, Nicolae-Catalin Ristea, Radu Tudor Ionescu, Kamal Nasrollahi, Fahad Shahbaz Khan, Thomas B. Moeslund, Mubarak Shah
Bloc auto-supervisé à convolution masquée et transformateur pour la détection d’anomalies
Résumé

La détection d’anomalies a récemment suscité un intérêt croissant dans le domaine de la vision par ordinateur, probablement en raison de ses nombreuses applications, allant de la détection de défauts de produits sur des chaînes de production industrielle à la détection d’événements imminents dans les vidéos de surveillance, en passant par la localisation de lésions dans les images médicales. Quel que soit le domaine, la détection d’anomalies est généralement formulée comme une tâche de classification à une seule classe, où l’apprentissage se fait uniquement sur des exemples normaux. Une famille d’approches performantes repose sur l’apprentissage de la reconstruction d’entrées normales masquées (par exemple, des patches, des cadres futurs, etc.), en utilisant l’amplitude de l’erreur de reconstruction comme indicateur du niveau d’anomalie. Contrairement aux autres méthodes basées sur la reconstruction, nous proposons un nouveau bloc auto-supervisé à convolution et transformer masqué (SSMCTB), dont la fonctionnalité de reconstruction est intégrée au cœur de l’architecture. Ce bloc auto-supervisé est extrêmement flexible, permettant le masquage d’informations à n’importe quel niveau d’un réseau de neurones, et est compatible avec une large gamme d’architectures neuronales. Dans ce travail, nous étendons notre précédent bloc auto-supervisé prédictif à attention convolutive (SSPCAB) en intégrant une couche convolutive masquée 3D, un transformateur pour l’attention sur les canaux, ainsi qu’un nouvel objectif auto-supervisé basé sur la perte de Huber. En outre, nous démontrons que notre bloc est applicable à une variété plus large de tâches, en ajoutant la détection d’anomalies dans les images médicales et les vidéos thermiques aux tâches précédemment étudiées basées sur des images RGB et des vidéos de surveillance. Nous illustrons la généralité et la flexibilité du SSMCTB en l’intégrant à plusieurs modèles neuronaux d’état de l’art pour la détection d’anomalies, obtenant des résultats expérimentaux qui confirment des améliorations significatives sur cinq benchmarks. Nous mettons à disposition notre code et nos données sous licence open source à l’adresse suivante : https://github.com/ristea/ssmctb.