HyperAIHyperAI
il y a 2 mois

Perte focale généralisée V2 : Apprentissage d'une estimation fiable de la qualité de localisation pour la détection d'objets dense

Li, Xiang ; Wang, Wenhai ; Hu, Xiaolin ; Li, Jun ; Tang, Jinhui ; Yang, Jian
Perte focale généralisée V2 : Apprentissage d'une estimation fiable de la qualité de localisation pour la détection d'objets dense
Résumé

L'estimation de la qualité de localisation (LQE) est cruciale et populaire dans les récentes avancées des détecteurs d'objets denses, car elle peut fournir des scores de classement précis qui bénéficient au processus de suppression non maximale (Non-Maximum Suppression, NMS) et améliorent les performances de détection. La plupart des méthodes existantes prédise(nt) les scores LQE à partir de caractéristiques convolutives partagées avec la classification d'objets ou la régression de boîtes englobantes. Dans cet article, nous explorons une perspective entièrement nouvelle et différente pour effectuer l'estimation de la qualité de localisation -- basée sur les distributions apprises des quatre paramètres de la boîte englobante. Ces distributions sont inspirées et introduites comme « Distribution générale » dans GFLV1, qui décrit bien l'incertitude des boîtes englobantes prédites. Cette propriété fait que les statistiques de distribution d'une boîte englobante sont fortement corrélées à sa véritable qualité de localisation. Plus précisément, une distribution de boîte englobante avec un pic aigu correspond généralement à une haute qualité de localisation, et inversement. En exploitant cette forte corrélation entre les statistiques de distribution et la véritable qualité de localisation, nous développons un prédicteur de qualité guidé par la distribution (Distribution-Guided Quality Predictor, DGQP) considérablement léger pour une estimation fiable de la qualité de localisation basée sur GFLV1, produisant ainsi GFLV2. À notre meilleure connaissance, c'est la première tentative en détection d'objets d'utiliser une représentation statistique hautement pertinente pour faciliter l'estimation de la qualité de localisation. De nombreuses expériences montrent l'efficacité de notre méthode. Notamment, GFLV2 (ResNet-101) atteint 46,2 AP à 14,6 FPS, surpassant le précédent état de l'art ATSS (43,6 AP à 14,6 FPS) avec une amélioration absolue de 2,6 AP sur COCO {\tt test-dev}, sans sacrifier l'efficacité lors des phases d'apprentissage et d'inférence. Le code sera disponible sur https://github.com/implus/GFocalV2.