HyperAI

La Réidentification Des Piétons Suscite De Plus En Plus D’attention. Quels Sont Les Sujets D’actualité ?

特色图像

La technologie de réidentification des piétons est largement utilisée dans des scénarios tels que les villes intelligentes et la conduite autonome, et a connu un développement rapide ces dernières années. Cela est également dû à l’expansion de l’échelle des données de formation et au développement de l’apprentissage en profondeur.

Dans la foule immense, pouvez-vous trouver la personne que vous recherchez en un coup d’œil ?

Aujourd’hui, cette tâche peut être un jeu d’enfant pour les ordinateurs. Cela est dû au développement rapide de la technologie de réidentification des piétons au cours des dernières années.

La réidentification des personnes, également connue sous le nom de réidentification des piétons, ou ReID en abrégé, est une technologie qui utilise la technologie de vision par ordinateur pour déterminer s'il y a un piéton spécifique dans une séquence d'images ou de vidéos. Pour le dire intuitivement,Il est capable d'identifier la même personne cible dans différentes scènes grâce à des caractéristiques telles que les vêtements, la forme du corps, la coiffure, etc., c'est pourquoi on l'appelle également technologie de suivi transfrontalier.

La réidentification des personnes est appelée « l'application phare » après la reconnaissance faciale

La réidentification des personnes est devenue une direction de recherche clé dans le domaine de la vision par ordinateur après la reconnaissance faciale.

Bien que la technologie de reconnaissance faciale soit très mature, dans de nombreux cas, comme dans les foules denses, la faible résolution des caméras de surveillance ou les angles de prise de vue biaisés, les visages ne peuvent souvent pas être reconnus efficacement.La réidentification des piétons est devenue un complément important.

Par conséquent, la reconnaissance faciale a reçu de plus en plus d’attention ces dernières années et ses applications connexes sont devenues de plus en plus étendues.

Pour comprendre une technologie, nous devons d’abord comprendre quel problème elle résout, comment elle réalise des avancées, quel stade elle a atteint et à quels défis elle est confrontée. Ensuite, nous procéderons à une analyse complète.

Où la réidentification des piétons est-elle utilisée ?

Tout d’abord, comme mentionné ci-dessus, la réidentification des piétons est un complément important à la technologie de reconnaissance faciale.

La condition préalable à la reconnaissance faciale est : une photo de face claire. Cependant, lorsque l’image ne montre que le dos ou d’autres angles où le visage ne peut pas être vu, la reconnaissance faciale échouera. À ce stade, la réidentification des piétons peut continuer à suivre la personne ciblée grâce à des caractéristiques telles que la posture et les vêtements.

À l’heure actuelle, la technologie de réidentification des piétons est largement utilisée dans la sécurité, la conduite autonome et d’autres domaines. Par exemple:

Sécurité intelligente :Les enquêteurs de police peuvent utiliser ReID pour aider à détecter rapidement les personnes suspectes ;

Système de recherche intelligent :Dans les endroits à fort trafic, comme les aéroports et les gares, ReID peut être utilisé pour retrouver des enfants et des personnes âgées perdus ;

Entreprise intelligente :ReID peut suivre dynamiquement les trajectoires des utilisateurs en temps réel sur la base de photos de l'apparence des piétons, afin de comprendre les intérêts de l'utilisateur dans le centre commercial et d'optimiser l'expérience utilisateur ;

Système de conduite autonome :ReID peut mieux identifier les piétons et améliorer la sécurité de la conduite autonome.

Un fournisseur de solutions de sécurité utilise ReID pour retrouver rapidement un adolescent perdu

La clé des avancées technologiques : les ensembles de données à grande échelle

Selon les chercheurs concernés, la réalisation d’une technologie de réidentification des piétons nécessite généralement les cinq étapes suivantes :

  1. Collecte de données;
  2. Génération de boîte englobante ;
  3. Annotation des données de formation ;
  4. Formation sur modèle;
  5. Récupération des piétons

Parmi elles, la collecte de données comme première étape constitue la base de toute la recherche de réidentification des piétons.Ces dernières années, des avancées significatives en matière de réidentification des personnes ont été réalisées grâce à la promotion et au soutien d’ensembles de données à grande échelle.

Cet article présentera plusieurs ensembles de données de détection de piétons couramment utilisés pour vos recherches et la formation de vos modèles.

 Ensemble de données sur les personnes de l'INRIA Ensemble de données sur la détection des piétons 

L'ensemble de données INRIA Person est actuellement l'un des ensembles de données de détection statique de piétons les plus populaires et les plus utilisés.Publié en 2005 par l'INRIA (Institut National de l'Informatique et de l'Automatique). Cet ensemble de données est utilisé pour détecter les piétons debout dans les images et les vidéos.

Cet ensemble de données contient des données dans deux formats.

Catégorie 1 : images originales et annotations piétonnes verticales correspondantes ;

Catégorie 2 : images positives de piétons debout et leurs images négatives correspondantes normalisées à 64×128 pixels.

Seules les personnes debout d'une taille > 100 cm sont marquées sur chaque image de l'ensemble de données

Les informations de base de l'ensemble de données sont les suivantes :

Ensemble de données sur les personnes de l'INRIA

Agence d'édition : INRIA 

Quantité incluse :L'ensemble d'entraînement et l'ensemble de test contiennent un total de 2573 images

Format des données :Les échantillons positifs sont au format .png, les échantillons négatifs sont au format .jpg

Taille des données :969 Mo

Heure de mise à jour :2005 

Adresse de téléchargement :https://orion.hyper.ai/datasets/5331

Articles connexes :

https://lear.inrialpes.fr/people/triggs/pubs/Dalal-cvpr05.pdf

 Ensemble de données vidéo sur les piétons de l'UCSD 

Les données vidéo sur les piétons de l'UCSD ont été collectées et organisées par l'Université de Californie et l'Université de la ville de Hong Kong et publiées en février 2013.

Cet ensemble de données est utilisé pour la segmentation des mouvements et le comptage des foules.L'ensemble de données contient des vidéos de piétons sur le trottoir de l'UCSD (Université de Californie, San Diego), toutes issues d'une caméra fixe.

Parmi elles, toutes les vidéos sont en niveaux de gris 8 bits, taille 238 × 158, 10 images/seconde. La vidéo originale est au format 740×480, 30 images/seconde, et peut être fournie sur demande.

Le répertoire vidéo contient des vidéos de deux scènes (divisées en deux répertoires, vidf et vidd). Chaque scène se trouve dans son propre répertoire vidX et est divisée en un ensemble de fragments .png.

Exemple d'ensemble de données

Les informations de base de l'ensemble de données sont les suivantes :

Ensemble de données sur les piétons de l'UCSD

Agence d'édition : UCSD, Université de la ville de Hong Kong

Quantité incluse :Environ 10 heures de vidéo

Format des données :.png

Taille des données :vidf : 787 Mo ; vidéo : 672 Mo

Heure de mise à jour :Février 2013

Adresse de téléchargement :https://orion.hyper.ai/datasets/9370

Articles connexes :

http://visal.cs.cityu.edu.hk/static/downloads/crowddoc/README-vids.pdf

 Référence de détection des piétons de Caltech 

La base de données de référence de détection des piétons de Caltech a été publiée par le California Institute of Technology en 2009 et est continuellement mise à jour chaque année.

Cette base de données est actuellement la plus grande base de données piétonnes, contenant environ 10 heures de vidéo.Il est principalement filmé par des caméras embarquées de véhicules circulant dans des environnements de circulation normaux en ville, avec une résolution vidéo de 640×480 et 30 images par seconde.

Au total, environ 250 000 images (environ 137 minutes), 350 000 cases rectangulaires et 2 300 piétons sont annotés dans la vidéo. De plus, la correspondance temporelle entre les cases rectangulaires et leurs conditions d'occlusion est également annotée.

Exemple d'ensemble de données

Les informations de base de l'ensemble de données sont les suivantes :

Ensemble de données sur les piétons de Caltech

Agence d'édition :  Institut de technologie de Californie

Quantité incluse :L'ensemble d'entraînement et l'ensemble de test contiennent un total de 2573 images

Format des données :.jpg

Taille des données :11,12 Go

Heure de mise à jour :Juillet 2019

Adresse de téléchargement :https://orion.hyper.ai/datasets/5334

Articles connexes :

http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/files/CVPR09pedestrians.pdf

Quelles sont les méthodes avancées ?

La recherche dans le domaine de la réidentification des personnes se poursuit depuis près de trois décennies. Ces dernières années, cette technologie a fait de grands progrès grâce aux ensembles de données à grande échelle et au développement du deep learning.

Nous citons ici deux des méthodes les plus récentes pour votre étude et votre référence.

  Éliminer les différences de style entre les différents appareils photo 

Lors de la principale conférence internationale sur la vision par ordinateur CVPR 2020, l'Académie chinoise des sciences a publié un article Transfert de style Unity pour la réidentification des personnesmilieu,Une méthode d'adaptation UnityStyle est proposée, qui peut unifier les différences de style entre différentes caméras.

Adresse du document : http://r6a.cn/dbWQ

Qu'il s'agisse du même appareil photo ou d'appareils photo différents, lors de la prise de vue, il y aura de grandes différences en raison de l'influence du temps, de l'éclairage, de la météo, etc., ce qui entraînera des difficultés pour la requête ciblée.

Pour résoudre ce problème, l'équipe de recherche a d'abord créé UnityGAN pour apprendre les changements de style entre les caméras et générer des images de style d'unité de forme stable pour chaque caméra, qu'ils appellent images UnityStyle.

en même temps,Ils utilisent des images UnityStyle pour atténuer les différences de style entre différentes images, afin que la requête (cible de la requête) et la galerie (bibliothèque d'images) soient mieux adaptées.

Ils ont ensuite appliqué la méthode proposée au modèle de réidentification, espérant obtenir des fonctionnalités plus robustes en termes de style pour la requête.

L’équipe a mené des expériences approfondies sur des ensembles de données de référence largement utilisés pour évaluer les performances du cadre proposé, et les résultats expérimentaux ont confirmé la supériorité du modèle proposé.

  Résoudre le problème d'occlusion des piétons 

Article publié par le Megvii Research Institute au CVPR 2020 « L'information d'ordre supérieur est importante : relation d'apprentissage et topologie pour la réidentification des personnes occultées »milieu,Il résout le problème le plus courant et le plus difficile dans ce domaine : l’occlusion des piétons.

Adresse de l'article : https://arxiv.org/pdf/2003.08177.pdf

Dans cet article, le cadre proposé par le Megvii Research Institute comprend :

  • Un module sémantique de premier ordre (S), qui peut extraire les caractéristiques sémantiques des régions clés du corps humain ;
  • Un module de relation d’ordre élevé (R), qui peut modéliser les informations de relation entre différentes caractéristiques locales sémantiques ;
  • Un module de topologie humaine d'ordre élevé (T) qui apprend un alignement robuste et prédit la similitude entre deux images.

Ces trois modules sont formés conjointement de manière de bout en bout.

Explication des informations d'ordre supérieur et des relations topologiques dans l'article

Auparavant, nous avonsL'ECCV le plus chaud de l'histoire a ouvert ses portes, et ces articles sont très intéressants.L'article « Veuillez ne pas me déranger : réidentification des piétons sous l'interférence d'autres piétons » publié par l'Université des sciences et technologies de Huazhong, l'Université Sun Yat-sen et le laboratoire Tencent Youtu a été présenté. La méthode proposée dans cet article résout le problème des résultats de récupération erronés causés par l’interférence des piétons en arrière-plan ou l’occlusion du corps humain dans les scènes surpeuplées. Les étudiants intéressés peuvent le consulter à nouveau.

Des technologies à la pointe, mais qui rencontrent encore des difficultés

À l’heure actuelle, la réidentification des piétons est encore confrontée à des défis considérables, notamment en matière de données, d’efficacité, de performance et d’autres aspects.

En termes de données, les données vidéo obtenues seront très différentes en raison de différentes scènes (comme à l'intérieur et à l'extérieur), de changements de style selon les saisons, de différences de lumière à différents moments (comme le jour et la nuit), etc. Ce sont tous des facteurs d'interférence pour la réidentification des piétons.Ces facteurs d’interférence affectent non seulement la précision de la reconnaissance du modèle, mais également l’efficacité de la reconnaissance.

Difficultés de reconnaissance des piétons dans des environnements non contrôlés

Par conséquent, même si nous avons constaté que la réidentification des piétons a même dépassé les capacités de résolution humaines dans les cas existants, il reste encore de nombreux problèmes à résoudre.

Accédez au lien suivant :https://orion.hyper.ai/datasets,Recherchez « piétons » ou cliquezLire l'article original,D'autres ensembles de données de détection de piétons sont disponibles.

-- sur--