HyperAIHyperAI
il y a 10 jours

Reconnaissance visuelle multi-étiquettes à queue longue par apprentissage collaboratif sur des échantillonnages uniformes et rééquilibrés

{Song Wang, Hao Guo}
Reconnaissance visuelle multi-étiquettes à queue longue par apprentissage collaboratif sur des échantillonnages uniformes et rééquilibrés
Résumé

La distribution des données à queue longue est fréquente dans de nombreuses tâches de reconnaissance visuelle multi-étiquettes, et son utilisation directe pour l’entraînement conduit généralement à des performances relativement faibles sur les classes de queue. Bien que l’échantillonnage rééquilibré des données puisse améliorer les performances sur les classes de queue, il peut également nuire aux performances sur les classes de tête pendant l’entraînement en raison de la co-occurrence des étiquettes. Dans cet article, nous proposons une nouvelle approche permettant d’entraîner simultanément sur des échantillonnages uniformes et rééquilibrés de manière collaborative, aboutissant à une amélioration des performances tant sur les classes de tête que sur celles de queue. Plus précisément, nous concevons un réseau de reconnaissance visuelle à deux branches : l’une prend en entrée l’échantillonnage uniforme, tandis que l’autre utilise l’échantillonnage rééquilibré. Pour chaque branche, nous effectuons la reconnaissance visuelle à l’aide d’une perte de classification basée sur l’entropie croisée binaire, complétée par une compensation des logits apprenables. Nous introduisons également une nouvelle perte inter-branche afin d’imposer une cohérence lorsque la même image passe par les deux branches. Nous menons des expériences approfondies sur les jeux de données VOC-LT et COCO-LT. Les résultats montrent que la méthode proposée surpasse significativement les méthodes de pointe précédentes dans le domaine de la reconnaissance visuelle multi-étiquettes à distribution longue.