Forest R-CNN : Détection d'objets à vocabulaire étendu et à queue longue, et segmentation d'instances

Malgré les succès précédents de l'analyse d'objets, la détection et le segmentage d'un grand nombre de catégories d'objets avec une distribution de données à queue longue restent un problème difficile et moins étudié. Pour un classifieur à vocabulaire large, la probabilité d'obtenir des logits bruyants est beaucoup plus élevée, ce qui peut facilement conduire à une mauvaise reconnaissance. Dans cet article, nous exploitons les connaissances a priori sur les relations entre les catégories d'objets pour regrouper les classes fines en classes parentes plus grossières, et construisons un arbre de classification responsable de l'analyse d'une instance d'objet dans une catégorie fine via sa classe parente. Dans l'arbre de classification, le nombre de nœuds de classe parente étant significativement moindre, leurs logits sont moins bruyants et peuvent être utilisés pour atténuer les logits erronés ou bruyants présents dans les nœuds de classes fines. Étant donné que la construction des classes parentes n'est pas unique, nous construisons plusieurs arbres pour former une forêt de classification où chaque arbre contribue à son tour au vote pour la classification fine. Pour atténuer l'apprentissage déséquilibré causé par le phénomène de queue longue, nous proposons une méthode de rééchantillonnage simple mais efficace, NMS Rééchantillonnage (NMS Resampling), afin de rééquilibrer la distribution des données. Notre méthode, nommée Forest R-CNN, peut servir de module plug-and-play applicable à la plupart des modèles de reconnaissance d'objets pour reconnaître plus de 1000 catégories. De nombreux expériences ont été menées sur le jeu de données à vocabulaire large LVIS. Comparée au modèle baseline Mask R-CNN, Forest R-CNN améliore considérablement les performances avec des gains respectifs de 11,5 % et 3,9 % en AP (Average Precision) sur les catégories rares et globales. De plus, nous obtenons des résultats state-of-the-art sur le jeu de données LVIS. Le code est disponible à l'adresse suivante : https://github.com/JialianW/Forest_RCNN.