HyperAIHyperAI
il y a 2 mois

Réseau de Régression Ordinale Profonde pour l'Estimation de Profondeur Monoœilique

Huan Fu; Mingming Gong; Chaohui Wang; Kayhan Batmanghelich; Dacheng Tao
Réseau de Régression Ordinale Profonde pour l'Estimation de Profondeur Monoœilique
Résumé

L'estimation de profondeur monoculaire, qui joue un rôle crucial dans la compréhension de la géométrie des scènes 3D, est un problème mal posé. Les méthodes récentes ont connu d'importantes améliorations en explorant les informations au niveau de l'image et les caractéristiques hiérarchiques issues des réseaux neuronaux convolutifs profonds (DCNNs). Ces méthodes modélisent l'estimation de profondeur comme un problème de régression et entraînent les réseaux de régression en minimisant l'erreur quadratique moyenne, ce qui souffre d'une convergence lente et de solutions locales insatisfaisantes. De plus, les réseaux d'estimation de profondeur existants utilisent des opérations de pooling spatial répétées, conduisant à des cartes de caractéristiques à faible résolution indésirables. Pour obtenir des cartes de profondeur à haute résolution, il est nécessaire d'utiliser des connexions sauteuses (skip-connections) ou des réseaux déconvolutifs multicouches, ce qui complique l'entraînement du réseau et consomme beaucoup plus de calculs. Afin d'éliminer ou au moins largement réduire ces problèmes, nous introduisons une stratégie de discrétisation avec espacement croissant (SID) pour discrétiser la profondeur et reformuler l'apprentissage du réseau de profondeur comme un problème de régression ordinaire. En entraînant le réseau avec une perte de régression ordinaire, notre méthode atteint une précision bien plus élevée et \dd{une convergence plus rapide en synch}. De plus, nous adoptons une structure de réseau multi-échelle qui évite le pooling spatial inutile et capture les informations multi-échelles en parallèle.La méthode décrite dans cet article obtient des résultats d'état de l'art sur quatre benchmarks difficiles, à savoir KITTI [17], ScanNet [9], Make3D [50] et NYU Depth v2 [42], et remporte le premier prix au Robust Vision Challenge 2018. Le code source est disponible à l'adresse suivante : https://github.com/hufu6371/DORN.

Réseau de Régression Ordinale Profonde pour l'Estimation de Profondeur Monoœilique | Articles de recherche récents | HyperAI