Détection multivue avec transformation de perspective des caractéristiques

L'intégration de vues multiples provenant de caméras pour la détection atténue l'impact des occultations dans les scènes bondées. Dans un système multivue, il est nécessaire de répondre à deux questions importantes lorsqu'on traite les ambiguïtés résultant des occultations. Premièrement, comment devrions-nous agréger les indices provenant des vues multiples ? Deuxièmement, comment devrions-nous agréger les informations spatiales 2D et 3D peu fiables qui ont été affectées par les occultations ? Pour répondre à ces questions, nous proposons un nouveau système de détection multivue, MVDet. En ce qui concerne l'agrégation multivue, les méthodes existantes combinent les caractéristiques des boîtes d'ancre dans le plan image, ce qui peut limiter les performances en raison de formes et tailles de boîtes d'ancre inexactes. En revanche, nous adoptons une approche sans ancre pour agréger les informations multivues en projetant les cartes de caractéristiques sur le plan du sol (vue du dessus). Pour résoudre toute ambiguïté spatiale restante, nous appliquons des convolutions à noyau large sur la carte de caractéristiques du plan du sol et inférons les positions à partir des pics de détection. Notre modèle entier est apprenable bout à bout et atteint 88,2 % de MODA sur l'ensemble de données Wildtrack standard, surpassant l'état de l'art de 14,1 %. Nous fournissons également une analyse détaillée de MVDet sur un nouvel ensemble de données synthétiques introduit récemment, MultiviewX, qui nous permet de contrôler le niveau d'occultation. Le code source et l'ensemble de données MultiviewX sont disponibles à l'adresse suivante : https://github.com/hou-yz/MVDet.