il y a 17 jours

DeBiFormer : Vision Transformer avec une attention de routage bi-niveau par agent déformable

Nguyen Huu Bao Long, Chenyu Zhang, Yuzhi Shi, Tsubasa Hirakawa, Takayoshi Yamashita, Tohgoroh Matsui, Hironobu Fujiyoshi

Voir les détails de l'article

DeBiFormer : Vision Transformer avec une attention de routage bi-niveau par agent déformable

Résumé

Les Vision Transformers utilisant divers modules d’attention ont démontré des performances supérieures sur les tâches de vision. Bien que l’utilisation d’une attention adaptative à la sparsité, comme dans DAT, ait permis d’obtenir de bons résultats en classification d’images, les paires clé-valeur sélectionnées par des points déformables manquent de pertinence sémantique lors du fine-tuning pour des tâches de segmentation sémantique. L’attention à sparsité consciente des requêtes, telle que proposée dans BiFormer, vise à concentrer chaque requête sur les k régions les plus pertinentes. Toutefois, lors du calcul de l’attention, les paires clé-valeur sélectionnées sont influencées par un trop grand nombre de requêtes sans rapport, ce qui réduit l’attention portée aux requêtes les plus importantes. Pour résoudre ces problèmes, nous proposons le module Deformable Bi-level Routing Attention (DBRA), qui optimise la sélection des paires clé-valeur à l’aide de requêtes-agent et améliore l’interprétabilité des requêtes dans les cartes d’attention. À partir de ce module, nous introduisons DeBiFormer, un nouveau Vision Transformer généraliste construit sur DBRA. DeBiFormer a été validé sur diverses tâches de vision par ordinateur, notamment la classification d’images, la détection d’objets et la segmentation sémantique, fournissant ainsi des preuves solides de son efficacité. Le code est disponible à l’adresse {https://github.com/maclong01/DeBiFormer}.