GSNet : Reconstruction conjointe de la pose et de la forme des véhicules avec une supervision géométrique et contextuelle

Nous présentons un nouveau cadre de travail intégré nommé GSNet (Réseau Géométrique et Conscient du Scène), qui estime conjointement les poses 6DoF et reconstruit des formes 3D détaillées de voitures à partir d'une seule vue de rue urbaine. GSNet utilise un schéma unique d'extraction et de fusion de caractéristiques quadripartites et régresse directement les poses 6DoF et les formes en une seule passe avant. De nombreuses expériences montrent que notre schéma d'extraction et de fusion diversifiées peut considérablement améliorer les performances du modèle. En se basant sur une stratégie de représentation 3D par division et conquête, GSNet reconstruit la forme 3D des véhicules avec un grand niveau de détail (1352 sommets et 2700 faces). Cette représentation maillée dense nous conduit à prendre en compte la cohérence géométrique et le contexte scénique, ce qui inspire une nouvelle fonction de perte multi-objectif pour régulariser l'entraînement du réseau, améliorant ainsi la précision de l'estimation des poses 6D et validant l'intérêt de réaliser conjointement ces deux tâches. Nous évaluons GSNet sur le plus grand banc d'essai multitâche ApolloCar3D, où il atteint des performances d'état de l'art tant quantitativement que qualitativement. La page du projet est disponible à l'adresse https://lkeab.github.io/gsnet/.