HyperAIHyperAI
il y a 2 mois

Apprentissage non supervisé de la profondeur et du mouvement égocentrique à partir d'une vidéo monoculaire

Bian, Jia-Wang ; Li, Zhichao ; Wang, Naiyan ; Zhan, Huangying ; Shen, Chunhua ; Cheng, Ming-Ming ; Reid, Ian
Apprentissage non supervisé de la profondeur et du mouvement égocentrique à partir d'une vidéo monoculaire
Résumé

Des travaux récents ont montré que les estimateurs de profondeur et de mouvement égocentrique basés sur les CNN (Convolutional Neural Networks) peuvent être appris à l'aide de vidéos monoculaires non étiquetées. Cependant, les performances sont limitées par des objets en mouvement non identifiés qui violent l'hypothèse de scène statique sous-jacente dans la reconstruction géométrique d'images. Plus significativement, en raison du manque de contraintes appropriées, les réseaux produisent des résultats incohérents en termes d'échelle pour différents échantillons, c'est-à-dire que le réseau de mouvement égocentrique ne peut pas fournir des trajectoires complètes de la caméra sur une séquence vidéo longue en raison de l'ambiguïté d'échelle par image. Cet article aborde ces défis en proposant une perte de cohérence géométrique pour des prédictions cohérentes en termes d'échelle et un masque auto-découvert induit pour gérer les objets en mouvement et les occultations. Comme nous n'utilisons pas l'apprentissage multi-tâches comme dans les travaux récents, notre cadre est beaucoup plus simple et efficace. Les résultats d'évaluation complets démontrent que notre estimateur de profondeur atteint des performances de pointe sur le jeu de données KITTI. De plus, nous montrons que notre réseau de mouvement égocentrique est capable de prédire une trajectoire globalement cohérente en termes d'échelle pour des séquences vidéo longues, et que la précision du odométrie visuelle résultante est compétitive avec celle du modèle récent formé à partir de vidéos stéréoscopiques. À notre connaissance, il s'agit du premier travail à démontrer que des réseaux profonds formés à l'aide de vidéos monoculaires non étiquetées peuvent prédire des trajectoires globalement cohérentes en termes d'échelle sur une séquence vidéo longue.

Apprentissage non supervisé de la profondeur et du mouvement égocentrique à partir d'une vidéo monoculaire | Articles de recherche récents | HyperAI