HyperAIHyperAI
il y a 3 mois

DPT : Transformateur basé sur les patches déformables pour la reconnaissance visuelle

Zhiyang Chen, Yousong Zhu, Chaoyang Zhao, Guosheng Hu, Wei Zeng, Jinqiao Wang, Ming Tang
DPT : Transformateur basé sur les patches déformables pour la reconnaissance visuelle
Résumé

Transformer a connu un grand succès en vision par ordinateur, toutefois le problème du découpage des patches dans une image reste encore ouvert. Les méthodes existantes utilisent généralement un embedding de patches de taille fixe, ce qui peut altérer les significations sémantiques des objets. Pour résoudre ce problème, nous proposons un nouveau module appelé Deformable Patch (DePatch), qui apprend de manière adaptative à découper les images en patches de positions et d’échelles variables, de façon data-driven, plutôt que d’utiliser des patches prédéfinis de taille fixe. Ainsi, notre méthode parvient à préserver efficacement la sémantique à l’intérieur des patches. Le module DePatch peut fonctionner comme un composant plug-and-play, facilement intégrable à différents transformers pour permettre un apprentissage end-to-end. Nous désignons ce transformer enrichi par DePatch comme Transformer basé sur des Patches Déformables (DPT), et nous menons des évaluations étendues de DPT sur la classification d’images et la détection d’objets. Les résultats montrent que DPT atteint une précision top-1 de 81,9 % sur la classification d’ImageNet, ainsi que 43,7 % de box mAP avec RetinaNet et 44,3 % avec Mask R-CNN sur la détection d’objets dans MSCOCO. Le code source est disponible à l’adresse suivante : https://github.com/CASIA-IVA-Lab/DPT.