HyperAIHyperAI
il y a 3 mois

Consistance et prise de conscience d’échelle multimodale pour l’estimation de profondeur auto-supervisée à partir d’une seule vue

Hemang Chawla, Arnav Varma, Elahe Arani, Bahram Zonooz
Consistance et prise de conscience d’échelle multimodale pour l’estimation de profondeur auto-supervisée à partir d’une seule vue
Résumé

L’estimation dense de profondeur est essentielle à la compréhension de scène pour les véhicules autonomes. Toutefois, les approches récentes auto-supervisées basées sur des vidéos monoculaires souffrent d’une incohérence d’échelle sur de longues séquences. En exploitant les données provenant des systèmes de positionnement global (GPS) omniprésents, nous abordons ce défi en proposant une perte dynamiquement pondérée GPS-to-Scale (g2s) afin de compléter les pertes basées sur l’apparence. Nous soulignons que le GPS n’est nécessaire qu’en phase d’entraînement multimodal, et non lors de l’inférence. La distance relative entre les cadres capturée via le GPS fournit un signal d’échelle indépendant de la configuration de la caméra et de la distribution de la scène, conduisant à des représentations de caractéristiques apprises plus riches. Grâce à une évaluation approfondie sur plusieurs jeux de données, nous démontrons une estimation de profondeur cohérente et consciente de l’échelle lors de l’inférence, améliorant les performances même lorsqu’un entraînement est effectué avec des données GPS à faible fréquence.