Exploiter la cohérence temporelle pour l'estimation de profondeur en temps réel dans les vidéos

La précision de l'estimation de profondeur à partir d'images statiques a été considérablement améliorée récemment, grâce à l'exploitation des caractéristiques hiérarchiques issues des réseaux neuronaux convolutifs profonds (CNNs). Comparativement aux images statiques, une quantité importante d'informations existe entre les trames vidéo et peut être utilisée pour améliorer la performance de l'estimation de profondeur. Dans cette étude, nous nous concentrons sur l'exploration de l'information temporelle provenant des vidéos monoculaires pour l'estimation de profondeur. Plus précisément, nous tirons parti des réseaux à mémoire à court et long terme convolutifs (CLSTM) et proposons une nouvelle structure spatiale-temporelle CLSTM (ST-CLSTM). Notre structure ST-CLSTM est capable de capturer non seulement les caractéristiques spatiales mais aussi les corrélations/temporalités entre les trames vidéo consécutives avec une augmentation négligeable du coût computationnel. De plus, afin de maintenir la cohérence temporelle entre les trames de profondeur estimées, nous appliquons un schéma d'apprentissage par réseau antagoniste génératif et concevons une perte de cohérence temporelle. La perte de cohérence temporelle est combinée avec la perte spatiale pour mettre à jour le modèle selon une approche bout-en-bout. En exploitant l'information temporelle, nous avons développé un cadre d'estimation de profondeur vidéo qui fonctionne en temps réel et produit des résultats visuellement agréables. De plus, notre approche est flexible et peut être généralisée à la plupart des cadres existants d'estimation de profondeur. Le code source est disponible à : https://tinyurl.com/STCLSTM