HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage non supervisé de la profondeur et du mouvement égocentrique à partir d'une vidéo monoculaire

Jia-Wang Bian Zhichao Li Naiyan Wang Huangying Zhan Chunhua Shen Ming-Ming Cheng Ian Reid

Résumé

Des travaux récents ont montré que les estimateurs de profondeur et de mouvement égocentrique basés sur les CNN (Convolutional Neural Networks) peuvent être appris à l'aide de vidéos monoculaires non étiquetées. Cependant, les performances sont limitées par des objets en mouvement non identifiés qui violent l'hypothèse de scène statique sous-jacente dans la reconstruction géométrique d'images. Plus significativement, en raison du manque de contraintes appropriées, les réseaux produisent des résultats incohérents en termes d'échelle pour différents échantillons, c'est-à-dire que le réseau de mouvement égocentrique ne peut pas fournir des trajectoires complètes de la caméra sur une séquence vidéo longue en raison de l'ambiguïté d'échelle par image. Cet article aborde ces défis en proposant une perte de cohérence géométrique pour des prédictions cohérentes en termes d'échelle et un masque auto-découvert induit pour gérer les objets en mouvement et les occultations. Comme nous n'utilisons pas l'apprentissage multi-tâches comme dans les travaux récents, notre cadre est beaucoup plus simple et efficace. Les résultats d'évaluation complets démontrent que notre estimateur de profondeur atteint des performances de pointe sur le jeu de données KITTI. De plus, nous montrons que notre réseau de mouvement égocentrique est capable de prédire une trajectoire globalement cohérente en termes d'échelle pour des séquences vidéo longues, et que la précision du odométrie visuelle résultante est compétitive avec celle du modèle récent formé à partir de vidéos stéréoscopiques. À notre connaissance, il s'agit du premier travail à démontrer que des réseaux profonds formés à l'aide de vidéos monoculaires non étiquetées peuvent prédire des trajectoires globalement cohérentes en termes d'échelle sur une séquence vidéo longue.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprentissage non supervisé de la profondeur et du mouvement égocentrique à partir d'une vidéo monoculaire | Articles | HyperAI