Distillation Équilibrée par Classe pour la Reconnaissance Visuelle à Longue Queue

Les images du monde réel sont souvent caractérisées par un déséquilibre important du nombre d’images par classe, ce qui donne lieu à des distributions en queue longue. Une approche efficace et simple pour la reconnaissance visuelle en queue longue consiste à apprendre les représentations de caractéristiques et le classificateur séparément, en utilisant respectivement un échantillonnage équilibré par instance et un échantillonnage équilibré par classe. Dans ce travail, nous introduisons un nouveau cadre, fondé sur l’observation clé selon laquelle une représentation de caractéristiques apprise avec un échantillonnage par instance n’est pas optimale dans un contexte de distribution en queue longue. Notre contribution principale est une nouvelle méthode d’entraînement, appelée Distillation Équilibrée par Classe (CBD), qui exploite la distillation de connaissances afin d’améliorer les représentations de caractéristiques. CBD permet à la représentation de caractéristiques d’évoluer lors d’une deuxième phase d’entraînement, guidée par un modèle enseignant appris lors de la première phase. La deuxième phase utilise un échantillonnage équilibré par classe, afin de se concentrer particulièrement sur les classes sous-représentées. Ce cadre peut naturellement intégrer l’utilisation de plusieurs modèles enseignants, permettant d’exploiter l’information provenant d’un ensemble de modèles pour renforcer les performances de reconnaissance. Nos expériences montrent que la technique proposée dépasse de manière cohérente l’état de l’art sur des benchmarks de reconnaissance en queue longue tels qu’ImageNet-LT, iNaturalist17 et iNaturalist18.