HyperAIHyperAI
il y a 4 mois

Estimation Contrastive de Similarité pour l'Apprentissage Auto-Supervisé Souple d'Images et de Vidéos

Julien Denize; Jaonary Rabarisoa; Astrid Orcesi; Romain Hérault
Estimation Contrastive de Similarité pour l'Apprentissage Auto-Supervisé Souple d'Images et de Vidéos
Résumé

L'apprentissage par représentation contrastive s'est avéré être une méthode d'apprentissage auto-supervisé efficace pour les images et les vidéos. La plupart des approches réussies sont basées sur l'Estimation Contrastive du Bruit (NCE) et utilisent différentes vues d'une instance comme positifs qui doivent être contrastés avec d'autres instances, appelées négatifs, considérées comme du bruit. Cependant, plusieurs instances dans un ensemble de données sont tirées de la même distribution et partagent des informations sémantiques sous-jacentes. Une bonne représentation de données devrait contenir des relations entre les instances, ou des similarités et dissimilarités sémantiques, que l'apprentissage contrastif nuit en considérant tous les négatifs comme du bruit. Pour contourner ce problème, nous proposons une nouvelle formulation de l'apprentissage contrastif utilisant la similarité sémantique entre les instances, appelée Estimation Contrastive de Similarité (SCE). Notre objectif d'entraînement est un objectif contrastif doux qui rapproche les positifs et estime une distribution continue pour repousser ou attirer les instances négatives en fonction de leurs similarités apprises. Nous validons empiriquement notre approche à la fois pour l'apprentissage de représentations d'images et de vidéos. Nous montrons que SCE se compare favorablement aux méthodes de pointe sur le protocole d'évaluation linéaire ImageNet avec moins d'époques pré-entraînées et qu'elle se généralise à plusieurs tâches en aval sur les images. Nous démontrons également que SCE atteint des résultats de pointe pour le pré-entraînement des représentations vidéo et que la représentation apprise peut se généraliser aux tâches en aval sur les vidéos.

Estimation Contrastive de Similarité pour l'Apprentissage Auto-Supervisé Souple d'Images et de Vidéos | Articles de recherche | HyperAI