Unicom : Représentation Universelle et Compacte pour la Recherche d'Images

Les méthodes modernes de recherche d'images s'appuient généralement sur l'ajustement fin des encodeurs pré-entraînés pour extraire des descripteurs au niveau de l'image. Cependant, les modèles les plus couramment utilisés sont pré-entraînés sur ImageNet-1K avec un nombre limité de classes. La représentation des caractéristiques pré-entraînée n'est donc pas assez universelle pour généraliser efficacement aux classes diverses du monde ouvert. Dans cet article, nous regroupons d'abord le grand ensemble de données LAION400M en un million de classes pseudo-bidimensionnelles, basées sur les caractéristiques textuelles et visuelles conjointes extraites par le modèle CLIP. En raison de la confusion de la granularité des étiquettes, l'ensemble de données regroupé automatiquement contient inévitablement une forte conflictualité inter-classe. Pour atténuer ce conflit, nous sélectionnons aléatoirement une partie des prototypes inter-classe afin de construire une perte softmax basée sur la marge. Pour améliorer davantage la représentation des caractéristiques à faible dimension, nous sélectionnons aléatoirement une partie des dimensions des caractéristiques lors du calcul des similarités entre les plongements (embeddings) et les prototypes par classe. Les deux sélections partielles aléatoires concernent respectivement la dimension de classe et la dimension de caractéristique de la matrice de prototypes, rendant ainsi la classification robuste aux conflits et le plongement (embedding) compact. Notre méthode dépasse significativement les approches actuelles d'extraction d'images non supervisées et supervisées sur plusieurs bancs d'essai. Le code source et les modèles pré-entraînés sont mis à disposition pour faciliter les recherches futures : https://github.com/deepglint/unicom.