HyperAIHyperAI
il y a 16 jours

Query2Label : Une Approche Simple basée sur Transformer pour la Classification Multi-Étiquettes

Shilong Liu, Lei Zhang, Xiao Yang, Hang Su, Jun Zhu
Query2Label : Une Approche Simple basée sur Transformer pour la Classification Multi-Étiquettes
Résumé

Cet article présente une approche simple et efficace pour résoudre le problème de classification multi-étiquettes. La méthode proposée utilise des décodeurs Transformer pour interroger l'existence d'une étiquette de classe. L'utilisation du Transformer s'inscrit dans la nécessité d'extraire de manière adaptative des caractéristiques discriminantes locales pour différentes étiquettes, une propriété fortement souhaitable en raison de la présence multiple d'objets dans une même image. Le module intégré d'attention croisée dans le décodeur Transformer offre un moyen efficace d'utiliser les embeddings d'étiquettes comme requêtes afin d'interroger et de regrouper des caractéristiques liées à une classe à partir d'une carte de caractéristiques calculée par un modèle de fond visuel (vision backbone), pour une classification binaire ultérieure. Par rapport aux travaux antérieurs, le nouveau cadre est simple, s'appuyant sur des Transformers standards et des modèles de fond visuel classiques, tout en étant hautement performant, dépassant systématiquement tous les travaux antérieurs sur cinq jeux de données de classification multi-étiquettes, notamment MS-COCO, PASCAL VOC, NUS-WIDE et Visual Genome. En particulier, nous atteignons un mAP de 91,3 % sur MS-COCO. Nous espérons que sa structure compacte, son implémentation simple et ses performances supérieures pourront servir de référence solide pour les tâches de classification multi-étiquettes et les études futures. Le code sera bientôt disponible à l'adresse suivante : https://github.com/SlongLiu/query2labels.

Query2Label : Une Approche Simple basée sur Transformer pour la Classification Multi-Étiquettes | Articles de recherche récents | HyperAI