V2F-Net : Décomposition explicite de la détection de piétons masqués

L’occlusion constitue un défi majeur dans la détection de piétons. Dans cet article, nous proposons une méthode simple mais efficace, nommée V2F-Net, qui décompose explicitement la détection de piétons occlusés en deux tâches distinctes : la détection des régions visibles et l’estimation de la boîte englobant tout le corps. V2F-Net se compose de deux sous-réseaux : le Réseau de Détection des Régions Visibles (VDN) et le Réseau d’Estimation du Corps Entier (FEN). Le VDN vise à localiser les régions visibles, tandis que le FEN est chargé d’estimer la boîte englobant tout le corps à partir de la boîte visible. En outre, pour améliorer davantage l’estimation du corps entier, nous introduisons un nouveau module, le module Part-aware basé sur des embeddings (EPM). En supervisant la visibilité de chaque partie du corps, ce module incite le réseau à extraire des caractéristiques portant des informations essentielles sur les parties du corps. Nous démontrons expérimentalement l’efficacité de V2F-Net à l’aide de plusieurs expériences menées sur deux jeux de données exigeants. V2F-Net obtient une amélioration de 5,85 % en AP sur CrowdHuman et une amélioration de 2,24 % en MR-2 sur CityPersons par rapport à la base FPN. En outre, les gains constants observés sur des détecteurs à une étape et à deux étapes valident la généralisation de notre méthode.