Découverte non supervisée d'objets et co-localisation par transformation profonde des descripteurs

La conception de modèles réutilisables devient souhaitable avec l'expansion rapide des applications en vision par ordinateur et apprentissage automatique. Dans cet article, nous nous concentrons sur la réutilisabilité des modèles de convolution profonde pré-entraînés. Plus précisément, contrairement à l'utilisation des modèles pré-entraînés comme extracteurs de caractéristiques, nous mettons en lumière d'autres trésors sous les couches de convolution, à savoir que les activations de convolution peuvent agir comme détecteur pour les objets communs dans le problème de co-localisation d'images. Nous proposons une méthode simple mais efficace, appelée Transformation Profonde des Descripteurs (Deep Descriptor Transforming - DDT), pour évaluer les corrélations entre descripteurs et obtenir des régions cohérentes par catégorie, permettant ainsi de localiser précisément l'objet commun dans un ensemble d'images non étiquetées, c'est-à-dire la découverte non supervisée d'objets. Les études empiriques valident l'efficacité de la méthode DDT proposée. Sur des jeux de données de référence pour la co-localisation d'images, DDT surpasse constamment les méthodes existantes les plus performantes avec une marge importante. De plus, DDT montre également une bonne capacité de généralisation pour des catégories inconnues et une robustesse pour traiter des données bruyantes. Au-delà de cela, DDT peut également être utilisé pour collecter des images web en sources de données externes valides afin d'améliorer les performances tant de la reconnaissance d'images que de la détection d'objets.