Contraintes de Pose pour une Estimation de Profondeur et de Mouvement Égocentrique Auto-supervisée et Cohérente

Les approches d'estimation de profondeur monoculaire auto-supervisée souffrent non seulement d'ambiguïté d'échelle, mais produisent également des cartes de profondeur temporellement incohérentes en termes d'échelle. Bien que la résolution de l'ambiguïté d'échelle pendant l'entraînement ne soit pas possible sans une certaine forme de supervision par la vérité terrain, avoir des prédictions de profondeur cohérentes en échelle permettrait de calculer cette échelle une seule fois lors de l'inférence, comme étape de post-traitement, et de l'utiliser sur toute la durée. Afin d'atteindre cet objectif, un ensemble de pertes de cohérence temporelle qui minimisent les incohérences de pose au fil du temps est introduit. Les évaluations montrent que l'introduction de ces contraintes réduit non seulement les incohérences de profondeur, mais améliore également les performances de base pour l'estimation de la profondeur et du mouvement égocentrique.