HyperAIHyperAI
il y a 17 jours

ClusterFit : Amélioration de la généralisation des représentations visuelles

Xueting Yan, Ishan Misra, Abhinav Gupta, Deepti Ghadiyaram, Dhruv Mahajan
ClusterFit : Amélioration de la généralisation des représentations visuelles
Résumé

Le pré-entraînement des réseaux de neurones convolutifs à l’aide de stratégies faiblement supervisées et auto-supervisées gagne en popularité pour de nombreuses tâches de vision par ordinateur. Toutefois, en l’absence de signaux discriminatifs forts, les représentations apprises peuvent surajuster à l’objectif de pré-entraînement (par exemple, la prédiction de hashtags) et ne pas se généraliser efficacement aux tâches ultérieures. Dans ce travail, nous proposons une stratégie simple — ClusterFit (CF) — afin d’améliorer la robustesse des représentations visuelles apprises pendant le pré-entraînement. Étant donné un jeu de données, nous (a) regroupons les caractéristiques extraites à partir d’un réseau pré-entraîné en utilisant un algorithme k-means, puis (b) réentraînons un nouveau réseau depuis le début sur ce jeu de données en utilisant les affectations de clusters comme pseudo-étiquettes. Nous démontrons empiriquement que le regroupement permet de réduire l’information spécifique à la tâche de pré-entraînement contenue dans les caractéristiques extraites, minimisant ainsi le surajustement à cette tâche. Notre approche est extensible à différents cadres de pré-entraînement — supervision faible et auto-supervision —, à différentes modalités — images et vidéos — ainsi qu’à diverses tâches de pré-entraînement — classification d’objets et de mouvements. À travers des expériences étendues de transfert d’apprentissage sur 11 jeux de données cibles aux vocabulaires et granularités variés, nous montrons que ClusterFit améliore significativement la qualité des représentations par rapport aux modèles de grande échelle (millions ou milliards de paramètres) actuellement les plus performants en vision par ordinateur, tant dans les approches faiblement supervisées que auto-supervisées.