HyperAIHyperAI
il y a 17 jours

V2F-Net : Décomposition explicite de la détection de piétons masqués

Mingyang Shang, Dawei Xiang, Zhicheng Wang, Erjin Zhou
V2F-Net : Décomposition explicite de la détection de piétons masqués
Résumé

L’occlusion constitue un défi majeur dans la détection de piétons. Dans cet article, nous proposons une méthode simple mais efficace, nommée V2F-Net, qui décompose explicitement la détection de piétons occlusés en deux tâches distinctes : la détection des régions visibles et l’estimation de la boîte englobant tout le corps. V2F-Net se compose de deux sous-réseaux : le Réseau de Détection des Régions Visibles (VDN) et le Réseau d’Estimation du Corps Entier (FEN). Le VDN vise à localiser les régions visibles, tandis que le FEN est chargé d’estimer la boîte englobant tout le corps à partir de la boîte visible. En outre, pour améliorer davantage l’estimation du corps entier, nous introduisons un nouveau module, le module Part-aware basé sur des embeddings (EPM). En supervisant la visibilité de chaque partie du corps, ce module incite le réseau à extraire des caractéristiques portant des informations essentielles sur les parties du corps. Nous démontrons expérimentalement l’efficacité de V2F-Net à l’aide de plusieurs expériences menées sur deux jeux de données exigeants. V2F-Net obtient une amélioration de 5,85 % en AP sur CrowdHuman et une amélioration de 2,24 % en MR-2 sur CityPersons par rapport à la base FPN. En outre, les gains constants observés sur des détecteurs à une étape et à deux étapes valident la généralisation de notre méthode.