Réétiquetage de ImageNet : du label unique au label multiple, du label global au label localisé

ImageNet est sans doute la référence la plus populaire pour la classification d’images, mais elle est également celle qui présente un niveau significatif de bruit dans les étiquettes. Des études récentes ont montré que de nombreux échantillons contiennent plusieurs classes, bien que l’on suppose généralement qu’il s’agit d’une tâche à une seule étiquette. Ces travaux ont donc proposé de transformer l’évaluation sur ImageNet en une tâche multi-étiquettes, avec des annotations exhaustives multi-étiquettes par image. Toutefois, ils n’ont pas corrigé le jeu de données d’entraînement, probablement en raison du coût élevé d’annotation. Nous affirmons que le désaccord entre les étiquettes à une seule classe et les images effectivement multi-étiquettes est tout aussi problématique, voire plus encore, dans le cadre de l’entraînement, où des coupes aléatoires sont appliquées. Avec des étiquettes à une seule classe, une coupe aléatoire d’une image peut contenir un objet entièrement différent de la vérité terrain, introduisant ainsi une supervision bruyante, voire incorrecte, durant l’entraînement. Nous proposons donc de réétiqueter le jeu de données d’entraînement d’ImageNet avec des étiquettes multi-étiquettes. Pour surmonter le coût élevé d’annotation, nous utilisons un classificateur d’images puissant, entraîné sur une source supplémentaire de données, afin de générer automatiquement les étiquettes multi-étiquettes. Nous exploitons les prédictions multi-étiquettes au niveau des pixels, avant la couche de pooling finale, afin de tirer parti des signaux de supervision supplémentaires liés à la localisation. L’entraînement sur les échantillons réétiquetés conduit à une amélioration des performances globales des modèles. Le modèle ResNet-50 atteint une précision top-1 de 78,9 % sur ImageNet avec nos étiquettes multi-étiquettes localisées, qui peut être portée à 80,2 % grâce à la régularisation CutMix. Nous montrons également que les modèles entraînés avec des étiquettes multi-étiquettes localisées surpassent les modèles de référence sur des tâches de transfert telles que la détection d’objets et la segmentation d’instances, ainsi que sur diverses évaluations de robustesse. Le jeu de données d’entraînement d’ImageNet réétiqueté, les poids pré-entraînés et le code source sont disponibles à l’adresse suivante : {https://github.com/naver-ai/relabel_imagenet}.