Classification multi-étiquettes avec annotations partielles en utilisant une perte sélective sensible aux classes

Les jeux de données à grande échelle pour la classification multi-étiquettes sont couramment, et peut-être inévitablement, partiellement annotés. Autrement dit, seul un petit sous-ensemble d’étiquettes est annoté pour chaque échantillon. Différentes méthodes de traitement des étiquettes manquantes entraînent des propriétés distinctes sur le modèle et influencent sa précision. Dans ce travail, nous analysons le problème de l’annotation partielle, puis proposons une solution fondée sur deux idées clés. Premièrement, les étiquettes non annotées doivent être traitées de manière sélective en fonction de deux quantités probabilistes : la distribution des classes dans l’ensemble du jeu de données et la probabilité spécifique de chaque étiquette pour un échantillon donné. Nous proposons d’estimer la distribution des classes à l’aide d’un modèle temporaire dédié, et montrons que cette approche est plus efficace qu’une estimation naïve basée sur les annotations partielles du jeu de données. Deuxièmement, pendant l’entraînement du modèle cible, nous mettons l’accent sur la contribution des étiquettes annotées par rapport aux étiquettes initialement non annotées en utilisant une perte asymétrique dédiée. Grâce à notre approche novatrice, nous obtenons des résultats de pointe sur le jeu de données OpenImages (par exemple, atteignant 87,3 mAP sur la version V6). En outre, des expériences menées sur LVIS et sur un jeu de données simulé COCO démontrent l’efficacité de notre méthode. Le code est disponible à l’adresse suivante : https://github.com/Alibaba-MIIL/PartialLabelingCSL.