Détection multi-vue de personnes dans des scènes vastes par pondération supervisée des contributions par vue

Les méthodes récentes de détection multi-vue des personnes (MVD) basées sur l'apprentissage profond ont montré des résultats prometteurs sur les jeux de données existants. Cependant, ces méthodes sont principalement formées et évaluées sur de petites scènes uniques avec un nombre limité de cadres multi-vue et des vues de caméra fixes. Par conséquent, ces méthodes peuvent ne pas être pratiques pour détecter des personnes dans des scènes plus grandes et complexes, caractérisées par des occultations sévères et des erreurs de calibration de caméra. Cet article se concentre sur l'amélioration de la détection multi-vue des personnes en développant une approche pondérée supervisée pour le contribution vue par vue, qui fusionne mieux les informations provenant de plusieurs caméras dans des scènes importantes. De plus, un grand jeu de données synthétiques est utilisé pour améliorer la capacité de généralisation du modèle et permettre une évaluation et une comparaison plus pratiques. Les performances du modèle sur de nouvelles scènes de test sont encore améliorées grâce à une technique simple d'adaptation de domaine. Les résultats expérimentaux démontrent l'efficacité de notre approche pour atteindre des performances prometteuses en détection multi-vue des personnes entre différentes scènes. Voir le code ici : https://vcc.tech/research/2024/MVD.