Transformations homographiques empilées pour la détection de piétons multi-vues

La détection de piétons à plusieurs vues vise à prédire une carte d’occupation vue de dessus (bird’s eye view, BEV) à partir de plusieurs vues caméra. Cette tâche fait face à deux défis majeurs : comment établir les correspondances 3D entre les vues et la carte BEV, et comment fusionner les informations d’occupation issues des différentes vues. Dans cet article, nous proposons une nouvelle approche, appelée Stacked HOmography Transformations (SHOT), motivée par l’approximation des projections dans les coordonnées 3D du monde à l’aide d’une suite de transformations homographiques. Nous construisons tout d’abord une pile de transformations permettant de projeter les vues sur le plan de sol à différents niveaux d’altitude. Ensuite, nous concevons un module de sélection douce (soft selection module) afin que le réseau apprenne à estimer la probabilité associée à cette pile de transformations. Par ailleurs, nous fournissons une analyse théorique approfondie sur la construction de SHOT et sur la qualité de son approximation des projections dans les coordonnées 3D du monde. Expérimentalement, SHOT s’avère capable d’estimer avec précision les correspondances entre chaque vue individuelle et la carte BEV, conduisant à de nouveaux résultats de pointe sur les benchmarks standard d’évaluation.