HyperAIHyperAI

Command Palette

Search for a command to run...

Transformations homographiques empilées pour la détection de piétons multi-vues

Junsong Yuan Yuan Li Qian Zhang Ming Yang Jialian Wu Liangchen Song

Résumé

La détection de piétons à plusieurs vues vise à prédire une carte d’occupation vue de dessus (bird’s eye view, BEV) à partir de plusieurs vues caméra. Cette tâche fait face à deux défis majeurs : comment établir les correspondances 3D entre les vues et la carte BEV, et comment fusionner les informations d’occupation issues des différentes vues. Dans cet article, nous proposons une nouvelle approche, appelée Stacked HOmography Transformations (SHOT), motivée par l’approximation des projections dans les coordonnées 3D du monde à l’aide d’une suite de transformations homographiques. Nous construisons tout d’abord une pile de transformations permettant de projeter les vues sur le plan de sol à différents niveaux d’altitude. Ensuite, nous concevons un module de sélection douce (soft selection module) afin que le réseau apprenne à estimer la probabilité associée à cette pile de transformations. Par ailleurs, nous fournissons une analyse théorique approfondie sur la construction de SHOT et sur la qualité de son approximation des projections dans les coordonnées 3D du monde. Expérimentalement, SHOT s’avère capable d’estimer avec précision les correspondances entre chaque vue individuelle et la carte BEV, conduisant à de nouveaux résultats de pointe sur les benchmarks standard d’évaluation.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp