HyperAIHyperAI

Command Palette

Search for a command to run...

Chaque Pixel Compte ++ : Apprentissage Conjoints de la Géométrie et du Mouvement avec une Compréhension Holistique en 3D

Chenxu Luo; Zhenheng Yang; Peng Wang; Yang Wang; Wei Xu; Ram Nevatia; Alan Yuille

Résumé

L'apprentissage de l'estimation de la géométrie 3D dans une seule image et du flot optique à partir d'images consécutives en regardant des vidéos non étiquetées via un réseau neuronal convolutif profond a connu des progrès significatifs récemment. Les méthodes actuelles les plus avancées (state-of-the-art, SoTA) traitent ces deux tâches de manière indépendante. Une hypothèse typique des méthodes existantes d'estimation de profondeur est que les scènes ne contiennent aucun objet se déplaçant indépendamment, alors que le mouvement des objets peut être modélisé facilement à l'aide du flot optique. Dans cet article, nous proposons d'aborder les deux tâches de manière globale, c'est-à-dire de comprendre conjointement la géométrie 3D par pixel et le mouvement. Cela élimine la nécessité de l'hypothèse d'une scène statique et impose la cohérence géométrique inhérente pendant le processus d'apprentissage, ce qui améliore considérablement les résultats pour les deux tâches. Nous appelons notre méthode « Every Pixel Counts++ » ou « EPC++ ». Plus précisément, lors de l'entraînement, étant données deux images consécutives d'une vidéo, nous utilisons trois réseaux parallèles pour prédire respectivement le mouvement de la caméra (MotionNet), la carte de profondeur dense (DepthNet) et le flot optique par pixel entre les deux images (OptFlowNet). Ces trois types d'informations sont ensuite intégrés dans un analyseur global de mouvement 3D (Holistic 3D Motion Parser, HMP), où le mouvement 3D par pixel du fond rigide et des objets mobiles est dissocié et récupéré. Des expériences approfondies ont été menées sur des ensembles de données présentant différentes scènes, y compris des situations de conduite (ensembles de données KITTI 2012 et KITTI 2015), des scènes mixtes extérieures/intérieures (Make3D) et des animations synthétiques (ensemble de données MPI Sintel). Les performances sur cinq tâches : estimation de profondeur, estimation du flot optique, odonométrie, segmentation d'objets mobiles et estimation du flot scénique montrent que notre approche surpasses les autres méthodes SoTA. Le code sera disponible à l'adresse suivante : https://github.com/chenxuluo/EPC.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp