HyperAIHyperAI
il y a 2 mois

Chaque Pixel Compte : Apprentissage Géométrique Non Supervisé avec une Compréhension Holistique du Mouvement 3D

Yang, Zhenheng ; Wang, Peng ; Wang, Yang ; Xu, Wei ; Nevatia, Ram
Chaque Pixel Compte : Apprentissage Géométrique Non Supervisé avec une Compréhension Holistique du Mouvement 3D
Résumé

L'apprentissage de l'estimation de la géométrie 3D à partir d'une seule image en regardant des vidéos non étiquetées via un réseau neuronal convolutif profond a connu des progrès significatifs récemment. Les méthodes actuelles les plus avancées (SOTA) sont basées sur le cadre d'apprentissage de la structure rigide à partir du mouvement, où seul le mouvement égocentrique 3D de la caméra est modélisé pour l'estimation de la géométrie. Cependant, des objets en mouvement existent également dans de nombreuses vidéos, par exemple des voitures en mouvement dans une scène de rue. Dans cet article, nous abordons ce type de mouvement en intégrant également le mouvement 3D par pixel des objets dans le cadre d'apprentissage, ce qui fournit une compréhension globale du flux scénique 3D et aide à l'estimation de la géométrie à partir d'une seule image.Plus précisément, étant données deux images consécutives issues d'une vidéo, nous utilisons un réseau de mouvement pour prédire leur position relative 3D de la caméra et un masque de segmentation distinguant les objets en mouvement et l'arrière-plan rigide. Un réseau d'écoulement optique est utilisé pour estimer une correspondance dense 2D par pixel. Un réseau de profondeur à partir d'une seule image prédit les cartes de profondeur pour les deux images. Ces quatre types d'informations, c'est-à-dire l'écoulement 2D, la position de la caméra, le masque de segmentation et les cartes de profondeur, sont intégrés dans un analyseur global différentiable du mouvement 3D (HMP), où le mouvement 3D par pixel pour l'arrière-plan rigide et les objets en mouvement est récupéré.Nous concevons diverses fonctions de perte relatives aux deux types de mouvements 3D pour entraîner les réseaux de profondeur et de mouvement, ce qui permet une réduction supplémentaire des erreurs pour la géométrie estimée. Enfin, afin de résoudre la confusion du mouvement 3D provenant des vidéos monoculaires, nous combinons des images stéréoscopiques dans un entraînement conjoint. Les expériences menées sur le jeu de données KITTI 2015 montrent que notre estimation de la géométrie, du mouvement 3D et des masques d'objets en mouvement non seulement est contrainte d'être cohérente, mais aussi dépasse considérablement les autres algorithmes SOTA, démontrant ainsi les avantages de notre approche.

Chaque Pixel Compte : Apprentissage Géométrique Non Supervisé avec une Compréhension Holistique du Mouvement 3D | Articles de recherche récents | HyperAI