HyperAIHyperAI
il y a 17 jours

Exploration de la localisation pour l'apprentissage contrastif finement granulaire auto-supervisé

Di Wu, Siyuan Li, Zelin Zang, Stan Z. Li
Exploration de la localisation pour l'apprentissage contrastif finement granulaire auto-supervisé
Résumé

L'apprentissage contrastif auto-supervisé a démontré un grand potentiel dans l'apprentissage de représentations visuelles. Malgré leurs succès sur diverses tâches ultérieures telles que la classification d'images et la détection d'objets, les méthodes d'apprentissage préalable auto-supervisé pour des scénarios à haute granularité restent largement sous-exploitées. Nous soulignons que les méthodes contrastives actuelles ont tendance à mémoriser les textures de l'arrière-plan ou du premier plan, ce qui limite leur capacité à localiser précisément l'objet principal. Une analyse approfondie indique que l'extraction d'informations texturales discriminantes et la localisation précise de l'objet sont deux objectifs également cruciaux pour un apprentissage préalable auto-supervisé à haute granularité. À la lumière de ces observations, nous proposons CVSA (Cross-View Saliency Alignment), un cadre d'apprentissage contrastif qui commence par découper et échanger des régions de saillance dans les images afin de générer de nouvelles vues, puis guide le modèle à localiser les objets du premier plan grâce à une perte d'alignement entre vues. Des expériences étendues sur des benchmarks à la fois petits et grands pour la classification fine-grainée montrent que CVSA améliore significativement les représentations apprises.