CrowdHuman : Une référence pour la détection de personnes dans une foule

La détection d'humains a connu des progrès impressionnants ces dernières années. Cependant, le problème de l'occlusion lors de la détection d'humains dans des environnements très peuplés est loin d'être résolu. Pour aggravuer la situation, les scénarios de foule sont encore sous-représentés dans les benchmarks actuels de détection d'humains. Dans cet article, nous présentons un nouveau jeu de données appelé CrowdHuman, conçu pour évaluer plus efficacement les détecteurs dans des scénarios de foule. Le jeu de données CrowdHuman est vaste, richement annoté et présente une grande diversité. Il comprend au total 470 000 instances humaines issues des sous-ensembles d'entraînement et de validation, avec en moyenne environ 22,6 personnes par image, et divers types d'occlusions présentes dans le jeu de données. Chaque instance humaine est annotée avec une boîte englobante pour la tête, une boîte englobante pour la région visible du corps humain et une boîte englobante pour l'ensemble du corps humain. Les performances de base des frameworks de détection les plus avancés sur le jeu de données CrowdHuman sont présentées. Les résultats de généralisation inter-jeux de données du jeu de données CrowdHuman montrent des performances à l'état de l'art sur les jeux de données précédents tels que Caltech-USA, CityPersons et Brainwash, sans recours à des techniques supplémentaires (bells and whistles). Nous espérons que notre jeu de données servira de solide référence et contribuera à promouvoir les recherches futures dans les tâches de détection d'humains.