il y a 11 jours

Combinaison de l’apprentissage de métriques et des têtes d’attention pour une classification d’images multilabel précise et efficace

Kirill Prokofiev, Vladislav Sovrasov

Résumé

La classification d’images à plusieurs étiquettes permet de prédire un ensemble d’étiquettes à partir d’une image donnée. Contrairement à la classification multiclasse, où une seule étiquette est attribuée par image, ce cadre s’applique à un éventail plus large d’applications. Dans ce travail, nous revisitons deux approches populaires pour la classification à plusieurs étiquettes : les têtes basées sur les transformateurs et les branches traitant les relations entre étiquettes via des graphes. Bien que les têtes basées sur les transformateurs soient généralement considérées comme offrant de meilleurs résultats que les méthodes basées sur les graphes, nous soutenons qu’avec une stratégie d’entraînement appropriée, les approches basées sur les graphes peuvent atteindre une perte de précision négligeable, tout en consommant moins de ressources computationnelles lors de l’inférence. Dans notre stratégie d’entraînement, au lieu d’utiliser la perte asymétrique (ASL), qui constitue la norme de facto pour la classification à plusieurs étiquettes, nous introduisons une variante fondée sur l’apprentissage de métriques. Pour chaque sous-problème de classification binaire, cette perte opère sur des vecteurs de caractéristiques normalisés au sens de la norme $L_2$ issus d’un modèle principal (backbone) et pousse les angles entre les représentations normalisées des échantillons positifs et négatifs à être aussi grands que possible. Ce mécanisme confère une meilleure capacité de discrimination par rapport à la perte d’entropie croisée binaire appliquée sur des caractéristiques non normalisées. Grâce à cette perte et à la stratégie d’entraînement proposées, nous obtenons des résultats SOTA (state-of-the-art) parmi les méthodes à un seul mode sur des benchmarks largement utilisés tels que MS-COCO, PASCAL-VOC, NUS-Wide et Visual Genome 500. Le code source de notre méthode est disponible dans le cadre des OpenVINO Training Extensions : https://github.com/openvinotoolkit/deep-object-reid/tree/multilabel