HyperAIHyperAI
il y a 2 mois

Caractérisation et Amélioration de la Robustesse de l'Apprentissage Auto-Supervisé par des Augmentations de Fond

Chaitanya K. Ryali; David J. Schwab; Ari S. Morcos
Caractérisation et Amélioration de la Robustesse de l'Apprentissage Auto-Supervisé par des Augmentations de Fond
Résumé

Les progrès récents dans l'apprentissage auto-supervisé ont montré des résultats prometteurs dans de nombreuses tâches visuelles. Un ingrédient important des méthodes auto-supervisées performantes est l'utilisation de l'augmentation de données en entraînant les modèles à placer différentes vues augmentées de la même image près les unes des autres dans l'espace d'embedding. Cependant, les pipelines d'augmentation couramment utilisés traitent les images de manière globale, ignorant la pertinence sémantique des parties d'une image – par exemple, le sujet par rapport au fond – ce qui peut conduire à l'apprentissage de corrélations parasites. Notre travail aborde ce problème en étudiant une classe d'« augmentations de fond » simples mais très efficaces, qui encouragent les modèles à se concentrer sur le contenu sémantiquement pertinent en leur dissuadant de se focaliser sur les arrière-plans des images. À travers une enquête systématique, nous démontrons que ces augmentations de fond entraînent des améliorations substantielles des performances sur une gamme de méthodes auto-supervisées de pointe (MoCo-v2, BYOL, SwAV) pour diverses tâches, par exemple, des gains d'environ +1-2% sur ImageNet, permettant ainsi d'atteindre des performances comparables à celles du modèle supervisé de référence. De plus, nous constatons que l'amélioration est encore plus importante dans les configurations avec un nombre limité d'étiquettes (jusqu'à 4,2%). Les augmentations de fond améliorent également la robustesse face à plusieurs changements de distribution, notamment aux exemples adverses naturels, ImageNet-9, aux attaques adverses et ImageNet-Renditions. Nous faisons également des progrès dans la détection entièrement non supervisée des zones salientes lors du processus de génération des masques de salience utilisés pour les augmentations de fond.