HyperAIHyperAI
il y a 2 mois

PWOC-3D : Estimation de flux de scène en profondeur avec prise en compte des occultations, de bout en bout

Rohan Saxena; René Schuster; Oliver Wasenmüller; Didier Stricker
PWOC-3D : Estimation de flux de scène en profondeur avec prise en compte des occultations, de bout en bout
Résumé

Ces dernières années, les réseaux de neurones convolutifs (CNNs) ont montré un succès croissant dans l'apprentissage de nombreuses tâches en vision par ordinateur, notamment des problèmes d'estimation dense tels que le flux optique et le couplage stéréoscopique. Cependant, la prédiction conjointe de ces tâches, appelée flux de scène, a traditionnellement été abordée à l'aide de méthodes classiques lentes basées sur des hypothèses primitives qui ne généralisent pas bien. Le travail présenté dans cet article surmonte ces inconvénients efficacement (en termes de vitesse et de précision) en proposant PWOC-3D, une architecture CNN compacte pour prédire le flux de scène à partir de séquences d'images stéréoscopiques dans un cadre supervisé bout-à-bout. De plus, les grands mouvements et les occultations sont des problèmes bien connus dans l'estimation du flux de scène. PWOC-3D utilise des décisions de conception spécialisées pour modéliser explicitement ces défis. À cet égard, nous proposons une nouvelle stratégie auto-supervisée pour prédire les occultations à partir d'images (apprise sans aucune donnée d'occultation étiquetée). En exploitant plusieurs tels mécanismes, notre réseau obtient des résultats compétitifs sur le benchmark KITTI et l'ensemble de données difficile FlyingThings3D. En particulier sur KITTI, PWOC-3D occupe la deuxième place parmi les méthodes d'apprentissage profond bout-à-bout avec 48 fois moins de paramètres que la méthode la mieux performante.

PWOC-3D : Estimation de flux de scène en profondeur avec prise en compte des occultations, de bout en bout | Articles de recherche récents | HyperAI