Découplage de la représentation et du classifieur pour la reconnaissance à queue longue

La distribution à queue longue du monde visuel pose de grands défis aux modèles de classification basés sur l'apprentissage profond en ce qui concerne la gestion du problème d'imbalance des classes. Les solutions existantes impliquent généralement des stratégies d'équilibrage des classes, par exemple, par le réajustement des pertes, le rééchantillonnage des données ou le transfert d'apprentissage des classes tête vers les classes queue, mais la plupart d'entre elles suivent le schéma d'un apprentissage conjoint des représentations et des classifieurs. Dans cette étude, nous découplons la procédure d'apprentissage en apprentissage de représentation et en classification, et explorons systématiquement comment différentes stratégies d'équilibrage les affectent pour la reconnaissance à queue longue. Les résultats sont surprenants : (1) l'imbalance des données pourrait ne pas être un problème dans l'apprentissage de représentations de haute qualité ; (2) avec des représentations apprises à partir d'un échantillonnage équilibré au niveau des instances (naturel), il est également possible d'atteindre une forte capacité de reconnaissance à queue longue en ajustant uniquement le classifieur. Nous menons de nombreuses expériences et établissons de nouvelles performances de pointe sur des benchmarks couramment utilisés comme ImageNet-LT, Places-LT et iNaturalist, démontrant qu'il est possible de surpasser des pertes soigneusement conçues, des stratégies d'échantillonnage, voire des modules complexes avec mémoire, en utilisant une approche simple qui découple l'apprentissage de représentation et la classification. Notre code est disponible à l'adresse https://github.com/facebookresearch/classifier-balancing.