DS-Depth : estimation dynamique et statique de la profondeur par un volume de coût par fusion

Les méthodes d’estimation de profondeur monoscopique auto-supervisées reposent généralement sur l’erreur de réprojection pour capturer les relations géométriques entre cadres successifs dans des environnements statiques. Toutefois, cette hypothèse ne tient pas dans des scénarios contenant des objets dynamiques, entraînant des erreurs lors de l’étape de synthèse de vue, telles qu’un mauvais appariement de caractéristiques ou des occlusions, qui peuvent fortement réduire la précision des cartes de profondeur générées. Pour remédier à ce problème, nous proposons un nouveau volume de coût dynamique qui exploite le flux optique résiduel pour décrire les objets en mouvement, améliorant ainsi les régions mal occlues présentes dans les volumes de coût statiques utilisés dans les travaux antérieurs. Néanmoins, le volume de coût dynamique engendre inévitablement des occlusions supplémentaires et du bruit ; nous atténuons ce phénomène en concevant un module de fusion permettant aux volumes de coût statiques et dynamiques de se compenser mutuellement. Autrement dit, les occlusions provenant du volume statique sont affinées par le volume dynamique, tandis que les informations incorrectes issues du volume dynamique sont éliminées par le volume statique. En outre, nous proposons une perte de distillation pyramidale afin de réduire l’imprécision de l’erreur photométrique aux faibles résolutions, ainsi qu’une perte d’erreur photométrique adaptative pour atténuer la direction du flux dans les régions d’occlusion présentant de fortes gradients. Nous avons mené des expériences étendues sur les jeux de données KITTI et Cityscapes, et les résultats démontrent que notre modèle surpasser les bases publiées précédemment pour l’estimation de profondeur monoscopique auto-supervisée.