Réseaux hybrides fondés sur l'apprentissage contrastif pour la classification d'images à queue longue

L’apprentissage de représentations d’images discriminantes joue un rôle fondamental dans la classification d’images à distribution longue-tailée, car il facilite l’apprentissage du classificateur dans des cas d’imbalanced. Étant donné les performances prometteuses que l’apprentissage contrastif a récemment démontrées dans le domaine de l’apprentissage de représentations, dans ce travail, nous explorons des stratégies d’apprentissage contrastif supervisé efficaces et les adaptons pour apprendre de meilleures représentations d’images à partir de données déséquilibrées, afin d’améliorer ainsi la précision de classification. Plus précisément, nous proposons une nouvelle architecture hybride composée d’une perte contrastive supervisée pour l’apprentissage des représentations d’images et d’une perte d’entropie croisée pour l’apprentissage des classificateurs, où l’apprentissage est progressivement transféré de l’apprentissage des caractéristiques à l’apprentissage du classificateur, incarnant ainsi l’idée selon laquelle de meilleures caractéristiques conduisent à de meilleurs classificateurs. Nous étudions deux variantes de perte contrastive pour l’apprentissage des caractéristiques, qui diffèrent par leur formulation mais partagent une idée commune : rapprocher les échantillons de la même classe dans l’espace d’embedding normalisé tout en éloignant les échantillons de classes différentes. L’une d’elles est la perte contrastive supervisée (SC), récemment proposée, conçue à partir de la perte contrastive non supervisée d’état de l’art en intégrant des échantillons positifs provenant de la même classe. L’autre est une stratégie d’apprentissage contrastif supervisé prototypique (PSC), qui atténue la forte consommation mémoire inhérente à la perte SC standard, offrant ainsi un meilleur potentiel dans des conditions de budget mémoire limité. Des expériences étendues sur trois jeux de données de classification longue-tailée démontrent l’avantage des réseaux hybrides basés sur l’apprentissage contrastif dans le contexte de la classification à distribution longue-tailée.