HyperAIHyperAI
il y a 2 mois

Chaque Pixel Compte ++ : Apprentissage Conjoints de la Géométrie et du Mouvement avec une Compréhension Holistique en 3D

Chenxu Luo; Zhenheng Yang; Peng Wang; Yang Wang; Wei Xu; Ram Nevatia; Alan Yuille
Chaque Pixel Compte ++ : Apprentissage Conjoints de la Géométrie et du Mouvement avec une Compréhension Holistique en 3D
Résumé

L'apprentissage de l'estimation de la géométrie 3D dans une seule image et du flot optique à partir d'images consécutives en regardant des vidéos non étiquetées via un réseau neuronal convolutif profond a connu des progrès significatifs récemment. Les méthodes actuelles les plus avancées (state-of-the-art, SoTA) traitent ces deux tâches de manière indépendante. Une hypothèse typique des méthodes existantes d'estimation de profondeur est que les scènes ne contiennent aucun objet se déplaçant indépendamment, alors que le mouvement des objets peut être modélisé facilement à l'aide du flot optique. Dans cet article, nous proposons d'aborder les deux tâches de manière globale, c'est-à-dire de comprendre conjointement la géométrie 3D par pixel et le mouvement. Cela élimine la nécessité de l'hypothèse d'une scène statique et impose la cohérence géométrique inhérente pendant le processus d'apprentissage, ce qui améliore considérablement les résultats pour les deux tâches. Nous appelons notre méthode « Every Pixel Counts++ » ou « EPC++ ». Plus précisément, lors de l'entraînement, étant données deux images consécutives d'une vidéo, nous utilisons trois réseaux parallèles pour prédire respectivement le mouvement de la caméra (MotionNet), la carte de profondeur dense (DepthNet) et le flot optique par pixel entre les deux images (OptFlowNet). Ces trois types d'informations sont ensuite intégrés dans un analyseur global de mouvement 3D (Holistic 3D Motion Parser, HMP), où le mouvement 3D par pixel du fond rigide et des objets mobiles est dissocié et récupéré. Des expériences approfondies ont été menées sur des ensembles de données présentant différentes scènes, y compris des situations de conduite (ensembles de données KITTI 2012 et KITTI 2015), des scènes mixtes extérieures/intérieures (Make3D) et des animations synthétiques (ensemble de données MPI Sintel). Les performances sur cinq tâches : estimation de profondeur, estimation du flot optique, odonométrie, segmentation d'objets mobiles et estimation du flot scénique montrent que notre approche surpasses les autres méthodes SoTA. Le code sera disponible à l'adresse suivante : https://github.com/chenxuluo/EPC.