HyperAIHyperAI
il y a 2 mois

Grid R-CNN

Xin Lu; Buyu Li; Yuxin Yue; Quanquan Li; Junjie Yan
Grid R-CNN
Résumé

Ce document propose un nouveau cadre de détection d'objets nommé Grid R-CNN, qui adopte un mécanisme de localisation guidée par grille pour une détection d'objets précise. Contrairement aux méthodes traditionnelles basées sur la régression, le Grid R-CNN capture explicitement les informations spatiales et bénéficie des propriétés sensibles à la position de l'architecture entièrement convolutive. Au lieu d'utiliser seulement deux points indépendants, nous concevons une formulation de supervision multi-points pour encoder davantage d'indices afin de réduire l'impact des prédictions inexactes de points spécifiques. Pour tirer pleinement parti de la corrélation entre les points dans une grille, nous proposons une stratégie en deux étapes de fusion d'informations pour fusionner les cartes de caractéristiques des points voisins de la grille. L'approche de localisation guidée par grille peut être facilement étendue à différents cadres avancés de détection. Le Grid R-CNN permet une localisation d'objets de haute qualité, et les expériences montrent qu'il réalise un gain de 4,1 % en AP (Average Precision) à IoU=0,8 et un gain de 10,0 % en AP à IoU=0,9 sur le benchmark COCO par rapport au Faster R-CNN avec le backbone Res50 et l'architecture FPN (Feature Pyramid Network).

Grid R-CNN | Articles de recherche récents | HyperAI