il y a 2 mois

Occlusion aléatoire 3D et projection multi-couches pour la localisation profonde de piétons par plusieurs caméras

Qiu, Rui ; Xu, Ming ; Yan, Yuyao ; Smith, Jeremy S. ; Yang, Xi

Résumé

Bien que les méthodes basées sur l'apprentissage profond pour la détection monulaire des piétons aient fait de grands progrès, elles restent vulnérables aux occlusions importantes. L'utilisation de la fusion d'informations multi-vues est une solution potentielle, mais ses applications sont limitées en raison du manque d'échantillons d'entraînement annotés dans les jeux de données multi-vues existants, ce qui augmente le risque de surapprentissage. Pour résoudre ce problème, une méthode d'augmentation de données est proposée, consistant à générer aléatoirement des occlusions cylindriques 3D sur le plan du sol, de taille moyenne comparable à celle des piétons, et à les projeter sur plusieurs vues afin d'atténuer l'impact du surapprentissage lors de l'entraînement. De plus, la carte de caractéristiques de chaque vue est projetée sur plusieurs plans parallèles situés à différentes hauteurs en utilisant des homographies, ce qui permet aux CNN (Convolutional Neural Networks) d'utiliser pleinement les caractéristiques tout au long de la hauteur de chaque piéton pour inférer leurs positions sur le plan du sol. La méthode 3DROM proposée présente une performance considérablement améliorée par rapport aux méthodes basées sur l'apprentissage profond les plus avancées pour la détection multi-vue des piétons.