HyperAIHyperAI
il y a 11 jours

MlTr : Classification multi-label avec Transformer

Xing Cheng, Hezheng Lin, Xiangyu Wu, Fan Yang, Dong Shen, Zhongyuan Wang, Nian Shi, Honglin Liu
MlTr : Classification multi-label avec Transformer
Résumé

La tâche de classification d’images à plusieurs étiquettes consiste à reconnaître l’ensemble des étiquettes d’objets présents dans une image. Bien que les progrès aient été significatifs au fil des années, les petits objets, les objets similaires et les objets présentant une probabilité conditionnelle élevée restent encore les principaux freins des modèles basés sur les réseaux de neurones convolutifs (CNN), en raison de la capacité représentationnelle limitée des noyaux de convolution. Les récents réseaux de transformateurs visuels exploitent le mécanisme d’attention auto-attention pour extraire des caractéristiques à l’échelle des pixels, offrant ainsi une information sémantique locale plus riche, mais s’avérant insuffisants pour exploiter efficacement les dépendances spatiales globales. Dans cet article, nous identifions trois problèmes cruciaux auxquels les méthodes basées sur les CNN sont confrontées, et explorons la possibilité d’introduire des modules de transformateur spécifiques afin de les surmonter. Nous proposons une architecture de transformateur multi-étiquettes (MlTr), fondée sur une partition en fenêtres, une attention entre pixels à l’intérieur de chaque fenêtre, ainsi qu’une attention entre fenêtres, permettant une amélioration significative des performances sur les tâches de classification d’images à plusieurs étiquettes. L’architecture MlTr atteint des résultats de pointe sur plusieurs jeux de données largement utilisés, notamment MS-COCO, Pascal-VOC et NUS-WIDE, avec des taux respectifs de 88,5 %, 95,8 % et 65,5 %. Le code source sera bientôt disponible à l’adresse suivante : https://github.com/starmemda/MlTr/

MlTr : Classification multi-label avec Transformer | Articles de recherche récents | HyperAI