Beta R-CNN : Une nouvelle perspective sur la détection de piétons

Des progrès significatifs ont récemment été réalisés dans la détection de piétons, mais il reste difficile d’obtenir des performances élevées dans les scènes fortement encombrées ou partiellement occultées. Ce défi peut en grande partie s’expliquer par la représentation couramment utilisée des piétons, à savoir la boîte englobante 2D alignée sur les axes, qui ne décrit qu’approximativement la position et la taille de l’objet. En modélisant l’objet comme une distribution uniforme à l’intérieur de cette boîte, les modèles basés sur les boîtes englobantes rendent les piétons indiscernables dans les scènes encombrées ou occultées, en raison de la forte présence de bruit. Pour résoudre ce problème, nous proposons une nouvelle représentation fondée sur une distribution bêta 2D, nommée Beta Representation. Cette représentation décrit un piéton en explicitant la relation entre la boîte complète (corps entier) et la boîte visible, tout en mettant l’accent sur le centre de masse visuelle en attribuant des valeurs de probabilité différentes aux pixels. En conséquence, Beta Representation se révèle bien plus efficace pour distinguer des instances fortement superposées dans les scènes encombrées, grâce à une nouvelle stratégie de suppression non maximale (NMS) baptisée BetaNMS. En outre, pour exploiter pleinement cette nouvelle représentation, nous proposons une nouvelle architecture, Beta R-CNN, dotée d’un module BetaHead et d’un masque BetaMask, qui permet d’atteindre des performances élevées en détection dans les scènes occultées et encombrées.