HyperAIHyperAI
il y a 3 mois

Transformers relationnels guidés par des parties pour la reconnaissance visuelle fine-grained

Yifan Zhao, Jia Li, Xiaowu Chen, Yonghong Tian
Transformers relationnels guidés par des parties pour la reconnaissance visuelle fine-grained
Résumé

La reconnaissance visuelle fine-grainée consiste à classer des objets présentant des apparences visuellement similaires en sous-catégories, un domaine qui a connu des progrès considérables grâce au développement des réseaux de neurones convolutifs profonds (CNN). Toutefois, la gestion des différences subtiles entre différentes sous-catégories reste un défi. Dans cet article, nous proposons de relever ce défi dans un cadre unifié à partir de deux angles : la construction de relations inter-éléments au niveau des caractéristiques, et la capture de caractéristiques discriminantes au niveau des parties. Ce cadre, nommé PArt-guided Relational Transformers (PART), vise à apprendre des caractéristiques discriminantes des parties grâce à un module d’identification automatique des parties, et à explorer les corrélations intrinsèques via un module de transformation des caractéristiques en adaptant les modèles Transformer issus du traitement du langage naturel. Le module d’identification des parties découvre efficacement les régions discriminantes, fortement corrélées à la procédure de descente de gradient. Ensuite, le second module de transformation des caractéristiques établit des corrélations entre l’embedding global et les multiples embeddings partiels, renforçant ainsi les interactions spatiales entre les pixels sémantiques. En outre, notre approche ne repose pas sur des branches supplémentaires au moment de l’inférence, et atteint des performances de pointe sur trois benchmarks largement utilisés pour la reconnaissance fine-grainée d’objets. Les résultats expérimentaux ainsi que les visualisations explicatives démontrent l’efficacité de notre méthode. Le code est disponible à l’adresse suivante : https://github.com/iCVTEAM/PART.