HyperAIHyperAI

Command Palette

Search for a command to run...

Combinaison de l’apprentissage de métriques et des têtes d’attention pour une classification d’images multilabel précise et efficace

Kirill Prokofiev Vladislav Sovrasov

Résumé

La classification d’images à plusieurs étiquettes permet de prédire un ensemble d’étiquettes à partir d’une image donnée. Contrairement à la classification multiclasse, où une seule étiquette est attribuée par image, ce cadre s’applique à un éventail plus large d’applications. Dans ce travail, nous revisitons deux approches populaires pour la classification à plusieurs étiquettes : les têtes basées sur les transformateurs et les branches traitant les relations entre étiquettes via des graphes. Bien que les têtes basées sur les transformateurs soient généralement considérées comme offrant de meilleurs résultats que les méthodes basées sur les graphes, nous soutenons qu’avec une stratégie d’entraînement appropriée, les approches basées sur les graphes peuvent atteindre une perte de précision négligeable, tout en consommant moins de ressources computationnelles lors de l’inférence. Dans notre stratégie d’entraînement, au lieu d’utiliser la perte asymétrique (ASL), qui constitue la norme de facto pour la classification à plusieurs étiquettes, nous introduisons une variante fondée sur l’apprentissage de métriques. Pour chaque sous-problème de classification binaire, cette perte opère sur des vecteurs de caractéristiques normalisés au sens de la norme L2L_2L2 issus d’un modèle principal (backbone) et pousse les angles entre les représentations normalisées des échantillons positifs et négatifs à être aussi grands que possible. Ce mécanisme confère une meilleure capacité de discrimination par rapport à la perte d’entropie croisée binaire appliquée sur des caractéristiques non normalisées. Grâce à cette perte et à la stratégie d’entraînement proposées, nous obtenons des résultats SOTA (state-of-the-art) parmi les méthodes à un seul mode sur des benchmarks largement utilisés tels que MS-COCO, PASCAL-VOC, NUS-Wide et Visual Genome 500. Le code source de notre méthode est disponible dans le cadre des OpenVINO Training Extensions : https://github.com/openvinotoolkit/deep-object-reid/tree/multilabel


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp