Reconnaissance à queue longue par apprentissage à partir de catégories latentes

Dans ce travail, nous abordons la tâche exigeante de la reconnaissance d’images à distribution longue. Les méthodes précédentes de reconnaissance à distribution longue se concentrent généralement sur des stratégies d’augmentation de données ou de rééquilibrage des classes de queue afin de prêter davantage d’attention à ces dernières pendant l’entraînement du modèle. Toutefois, en raison du nombre limité d’images disponibles pour les classes de queue, la diversité des images de ces classes reste restreinte, ce qui conduit à des représentations de caractéristiques médiocres. Dans ce travail, nous supposons que des caractéristiques latentes communes entre les classes de tête et les classes de queue peuvent être exploitées pour améliorer la qualité des représentations de caractéristiques. Motivés par cette hypothèse, nous proposons une méthode de reconnaissance à distribution longue basée sur des catégories latentes, appelée LCReg. Plus précisément, nous proposons d’apprendre un ensemble de caractéristiques latentes indépendantes des classes, partagées entre les classes de tête et celles de queue. Ensuite, nous enrichissons implicitement la diversité des échantillons d’entraînement en appliquant une augmentation sémantique aux caractéristiques latentes. Des expériences étendues sur cinq jeux de données de reconnaissance d’images à distribution longue démontrent que notre méthode LCReg permet de surpasser significativement les approches antérieures et d’atteindre des résultats de pointe.