HyperAIHyperAI
il y a 19 jours

VarifocalNet : Un détecteur d’objets dense conscient de l’IoU

Haoyang Zhang, Ying Wang, Feras Dayoub, Niko Sünderhauf
VarifocalNet : Un détecteur d’objets dense conscient de l’IoU
Résumé

Classer avec précision le grand nombre de détections candidates est essentiel pour permettre aux détecteurs d’objets denses d’atteindre de hautes performances. Les travaux antérieurs utilisent soit le score de classification, soit une combinaison de scores de classification et de localisation prédits, afin de classer les candidats. Toutefois, aucune de ces deux approches ne permet d’obtenir un classement fiable, ce qui nuit à la performance globale de détection. Dans cet article, nous proposons d’apprendre un Score de Classification Aware-IoU (IACS), qui sert de représentation conjointe de la confiance en la présence d’un objet et de la précision de sa localisation. Nous démontrons que les détecteurs d’objets denses peuvent ainsi obtenir un classement plus précis des détections candidates à partir de l’IACS. Pour entraîner un détecteur d’objets dense à prédire l’IACS, nous concevons une nouvelle fonction de perte, nommée Varifocal Loss, et proposons une nouvelle représentation de caractéristiques sous forme d’étoile pour la prédiction de l’IACS et le raffinement des boîtes englobantes. En combinant ces deux nouveaux composants avec une branche dédiée au raffinement des boîtes englobantes, nous construisons un détecteur d’objets denses aware-IoU basé sur l’architecture FCOS+ATSS, que nous appelons VarifocalNet, ou VFNet pour faire référence à son abréviation. Des expériences étendues sur MS COCO montrent que notre VFNet dépasse de manière cohérente la base forte d’environ 2,0 AP, quel que soit le réseau de base utilisé. Notre meilleur modèle, VFNet-X-1200, basé sur Res2Net-101-DCN, atteint une précision AP de 55,1 sur le test-dev de COCO en mode modèle unique et échelle unique, ce qui le place au niveau de l’état de l’art parmi les détecteurs d’objets. Le code est disponible à l’adresse suivante : https://github.com/hyz-xmaster/VarifocalNet.