il y a 2 mois

Apprentissage Contrastif Probabiliste pour la Reconnaissance Visuelle à Queue Longue

Chaoqun Du; Yulin Wang; Shiji Song; Gao Huang

Résumé

Les distributions à queue longue apparaissent fréquemment dans les données du monde réel, où un grand nombre de catégories minoritaires contiennent un nombre limité d'échantillons. Ce problème d'imbalance affecte considérablement les performances des algorithmes d'apprentissage supervisé standard, qui sont principalement conçus pour des ensembles d'entraînement équilibrés. Des recherches récentes ont montré que l'apprentissage supervisé par contraste présente un potentiel prometteur pour atténuer l'imbalance des données. Cependant, la performance de l'apprentissage supervisé par contraste est entravée par un défi inhérent : il nécessite des lots d'entraînement suffisamment grands pour construire des paires contrastives couvrant toutes les catégories, une exigence difficile à satisfaire dans le contexte de données déséquilibrées. Pour surmonter cet obstacle, nous proposons un nouvel algorithme d'apprentissage contrastif probabiliste (ProCo) qui estime la distribution des données des échantillons de chaque classe dans l'espace des caractéristiques et génère des paires contrastives en conséquence. En réalité, estimer les distributions de toutes les classes à partir de caractéristiques dans un petit lot, particulièrement pour des données déséquilibrées, n'est pas réalisable. Notre idée clé consiste à introduire une hypothèse raisonnable et simple selon laquelle les caractéristiques normalisées dans l'apprentissage par contraste suivent un mélange de distributions von Mises-Fisher (vMF) dans l'espace unitaire, ce qui apporte deux avantages. Premièrement, les paramètres de distribution peuvent être estimés en utilisant uniquement le premier moment des échantillons, ce qui peut être calculé efficacement en ligne à travers différents lots. Deuxièmement, basés sur la distribution estimée, la distribution vMF nous permet de générer un nombre infini de paires contrastives et de dériver une forme fermée de la perte contrastive attendue pour une optimisation efficace. Notre code est disponible sur https://github.com/LeapLabTHU/ProCo.