HyperAIHyperAI
il y a 2 mois

Discrimination de grappes multi-étiquettes pour l'apprentissage de représentations visuelles

Xiang An; Kaicheng Yang; Xiangzi Dai; Ziyong Feng; Jiankang Deng
Discrimination de grappes multi-étiquettes pour l'apprentissage de représentations visuelles
Résumé

Le pré-entraînement Contrastif Langage-Image (CLIP) a récemment démontré son succès dans diverses tâches grâce à une représentation de caractéristiques supérieure rendue possible par l'apprentissage contrastif image-texte. Cependant, la méthode de discrimination d'instances utilisée par CLIP peine à encoder la structure sémantique des données d'entraînement. Pour surmonter cette limitation, la discrimination de clusters a été proposée via l'affectation et la classification itératives des clusters. Néanmoins, la plupart des approches de discrimination de clusters ne définissent qu'une seule étiquette pseudo pour chaque image, négligeant ainsi les signaux multi-étiquettes présents dans l'image. Dans cet article, nous proposons une nouvelle méthode de Discrimination de Clusters Multi-Étiquettes nommée MLCD pour améliorer l'apprentissage de représentations. Dans l'étape de clustering, nous regroupons d'abord le vaste ensemble de données LAION-400M en un million de centres basés sur des caractéristiques d'embedding prédéfinies. Étant donné que les images naturelles contiennent fréquemment plusieurs objets visuels ou attributs, nous sélectionnons les centres les plus proches comme étiquettes de classe auxiliaires. Dans l'étape de discrimination, nous concevons une nouvelle fonction de perte pour la classification multi-étiquettes, qui sépare élégamment les pertes des classes positives et des classes négatives, et atténue l'ambiguïté sur la frontière décisionnelle. Nous validons notre méthode proposée de discrimination de clusters multi-étiquettes par des expériences menées sur différents modèles et ensembles de données d'pré-entraînement. Les résultats expérimentaux montrent que notre méthode atteint des performances state-of-the-art dans plusieurs tâches en aval, notamment le test linéaire, la classification sans supervision (zero-shot) et la recherche image-texte. Le code source et les modèles ont été mis à disposition sur https://github.com/deepglint/unicom .

Discrimination de grappes multi-étiquettes pour l'apprentissage de représentations visuelles | Articles de recherche récents | HyperAI