il y a 9 jours

Découplage de transformation spatiale pour la détection d'objets orientés

Hongtian Yu, Yunjie Tian, Qixiang Ye, Yunfan Liu

Résumé

Les Vision Transformers (ViTs) ont connu un succès remarquable dans les tâches de vision par ordinateur. Toutefois, leur potentiel dans les scénarios sensibles à la rotation n’a pas encore été pleinement exploré, une limitation qui pourrait être intrinsèquement liée au manque d’invariance spatiale dans le processus de transmission des données. Dans cette étude, nous proposons une nouvelle approche, nommée Spatial Transform Decoupling (STD), offrant une solution simple mais efficace pour la détection d’objets orientés basée sur les ViTs. Fondée sur des blocs ViT empilés, STD utilise des branches réseau distinctes pour prédire respectivement la position, la taille et l’angle des boîtes englobantes, exploitant ainsi de manière efficace le potentiel de transformation spatiale des ViTs selon une stratégie de « diviser pour régner ». En outre, en agrégant des masques d’activation en cascade (CAMs) calculés à partir des paramètres régressés, STD améliore progressivement les caractéristiques au sein des régions d’intérêt (RoIs), complétant ainsi mécanisme d’attention auto-associative. Sans recourir à des améliorations superflues, STD atteint des performances de pointe sur des jeux de données de référence, notamment DOTA-v1.0 (82,24 % de mAP) et HRSC2016 (98,55 % de mAP), ce qui démontre l’efficacité de la méthode proposée. Le code source est disponible à l’adresse suivante : https://github.com/yuhongtian17/Spatial-Transform-Decoupling.