Apprentissage à partir de données web avec un module de mémoire auto-organisant

L'apprentissage à partir de données web a suscité un grand intérêt de recherche ces dernières années. Cependant, les images web collectées présentent généralement deux types de bruit : le bruit d'étiquetage et le bruit de fond, qui ajoutent des difficultés supplémentaires pour les utiliser efficacement. La plupart des méthodes existantes s'appuient soit sur une supervision humaine, soit ignorent le bruit de fond. Dans cet article, nous proposons une nouvelle méthode capable de traiter simultanément ces deux types de bruit, sans nécessiter la supervision d'images propres lors de l'entraînement. Plus précisément, nous formulons notre méthode dans le cadre de l'apprentissage multi-instance en regroupant des ROIs (regions of interest, régions d'intérêt) — c'est-à-dire des images et leurs propositions de régions — appartenant à la même catégorie en sacs. Les ROIs dans chaque sac sont attribués différents poids en fonction des scores représentatifs/discriminants de leurs clusters les plus proches, où les clusters et leurs scores sont obtenus par notre module mémoire conçu spécialement pour cela. Notre module mémoire peut être intégré naturellement au module de classification, conduisant ainsi à un système entièrement entraînable. De nombreuses expériences menées sur quatre jeux de données de référence démontrent l'efficacité de notre méthode.