Segmentation en temps réel centrée sur l'humain pour des scènes vidéo complexes

La plupart des tâches vidéo existantes liées à l'« humain » se concentrent sur le segmentage des personnes saillantes, ignorant les autres non spécifiées présentes dans la vidéo. Peu d'études ont porté sur le segmentage et le suivi de toutes les personnes dans une vidéo complexe, y compris les piétons et les personnes dans d'autres états (par exemple, assises, en train de monter ou occultées). Dans cet article, nous proposons un nouveau cadre, abrégé en HVISNet (Human Video Instance Segmentation Network), qui segmente et suit toutes les personnes présentes dans les vidéos données à l'aide d'un détecteur mono-étape.Pour évaluer de manière plus précise les scènes complexes, nous présentons un nouveau benchmark appelé HVIS (Human Video Instance Segmentation), composé de 1447 masques d'instances humaines dans 805 vidéos haute résolution et variées. De nombreuses expériences montrent que notre HVISNet proposé surpasse les méthodes de pointe en termes de précision à une vitesse d'inférence en temps réel (30 FPS), notamment dans des scènes vidéo complexes. Nous avons également constaté que l'utilisation du centre de la boîte englobante pour distinguer différents individus entraîne une dégradation sévère de la précision du segmentage, surtout dans des conditions d'occultation importante. Ce phénomène courant est connu sous le nom de problème des échantillons positifs ambigus.Pour atténuer ce problème, nous proposons un mécanisme appelé Inner Center Sampling (ICS) afin d'améliorer la précision du segmentage d'instances. Un tel mécanisme ICS prêt à l'emploi peut être intégré à n'importe quel modèle de segmentage d'instances basé sur un détecteur mono-étape pour améliorer ses performances. En particulier, il apporte une amélioration de 4,1 points mAP (mean Average Precision) par rapport à la méthode de pointe dans le cas des personnes occultées. Le code source et les données sont disponibles à l'adresse suivante : https://github.com/IIGROUP/HVISNet.