Régression de boîtes englobantes avec incertitude pour une détection d'objets précise

Les jeux de données d'annotation d'objets à grande échelle (par exemple, MS-COCO) tentent de définir les boîtes englobantes de vérité terrain aussi clairement que possible. Cependant, nous constatons que des ambiguïtés subsistent lors de l'étiquetage des boîtes englobantes. Dans cet article, nous proposons une nouvelle perte de régression pour les boîtes englobantes permettant d'apprendre la transformation et la variance de localisation ensemble. Notre perte améliore considérablement la précision de localisation de diverses architectures avec presque aucune augmentation du calcul. La variance de localisation apprise nous permet de fusionner les boîtes englobantes voisines lors de la suppression non maximale (NMS), ce qui améliore encore davantage les performances de localisation. Sur MS-COCO, nous augmentons la Précision Moyenne (AP) du VGG-16 Faster R-CNN de 23,6 % à 29,1 %. Plus important encore, pour le ResNet-50-FPN Mask R-CNN, notre méthode améliore respectivement l'AP et l'AP90 de 1,8 % et 6,2 %, surpassant significativement les méthodes précédentes d'affinement des boîtes englobantes. Notre code et nos modèles sont disponibles sur : github.com/yihui-he/KL-Loss