il y a 16 jours

SPIdepth : Informations renforcées sur la pose pour l'estimation de profondeur monoscopique auto-supervisée

Mykola Lavreniuk

Résumé

L'estimation de profondeur monoscopique auto-supervisée a suscité un intérêt croissant en raison de ses applications dans les véhicules autonomes et la robotique. Bien que les méthodes récentes aient progressé en exploitant des techniques telles que la couche d'interrogation auto-orientée (Self Query Layer, SQL) pour estimer la profondeur à partir du mouvement, elles négligent souvent le potentiel de renforcement des informations de pose. Dans cet article, nous proposons SPIdepth, une nouvelle approche qui met l'accent sur l'amélioration du réseau de pose afin d'optimiser l'estimation de profondeur. S'appuyant sur les fondations établies par SQL, SPIdepth met en évidence l'importance cruciale des informations de pose pour capturer les structures scéniques à très fine échelle. En renforçant les capacités du réseau de pose, SPIdepth atteint des avancées remarquables en compréhension scénique et estimation de profondeur. Les résultats expérimentaux sur des jeux de données de référence tels que KITTI, Cityscapes et Make3D démontrent la performance de pointe de SPIdepth, dépassant significativement les méthodes antérieures. En particulier, SPIdepth obtient le meilleur score sur le benchmark auto-supervisé KITTI. De plus, SPIdepth atteint les meilleurs résultats en AbsRel (0,029), SqRel (0,069) et RMSE (1,394) sur KITTI, établissant de nouvelles références. Sur Cityscapes, SPIdepth améliore les performances de SQLdepth de 21,7 % en AbsRel, 36,8 % en SqRel et 16,5 % en RMSE, même sans utiliser de masques de mouvement. Sur Make3D, SPIdepth surpasses tous les autres modèles en mode zéro-shot. De manière remarquable, SPIdepth parvient à ces résultats en n'utilisant qu'une seule image pour l'inférence, dépassant même les méthodes qui s'appuient sur des séquences vidéo, ce qui témoigne de son efficacité et de son efficience dans les applications réelles. Notre approche représente une avancée significative dans l'estimation de profondeur monoscopique auto-supervisée, soulignant l'importance de renforcer les informations de pose pour améliorer la compréhension des scènes dans des contextes réels. Le code source et les modèles pré-entraînés sont disponibles publiquement à l'adresse suivante : https://github.com/Lavreniuk/SPIdepth.