P3Depth : Estimation monocabulaire de profondeur avec une priorité de planéité par morceaux

L'estimation de profondeur monoscopique est essentielle pour la compréhension des scènes et les tâches ultérieures. Nous nous concentrons sur le cadre supervisé, dans lequel les profondeurs vraies sont disponibles uniquement au moment de l'entraînement. En s'appuyant sur la connaissance de la forte régularité des scènes 3D réelles, nous proposons une méthode qui apprend à exploiter de manière sélective les informations provenant de pixels coplanaires afin d'améliorer la prédiction de profondeur. Plus précisément, nous introduisons un prior de planéité par morceaux, selon lequel chaque pixel possède un pixel-source partageant le même plan 3D. Inspirés par ce prior, nous concevons un réseau à deux têtes : la première tête produit des coefficients de plan au niveau des pixels, tandis que la seconde génère un champ vectoriel dense d'offsets qui identifie les positions des pixels-source. Les coefficients de plan des pixels-source sont ensuite utilisés pour prédire la profondeur à chaque position. La prédiction résultante est ensuite fusionnée de manière adaptative avec la prédiction initiale fournie par la première tête, via une confiance apprise, afin de tenir compte des éventuelles déviations par rapport à une planéité locale précise. L'architecture entière est entraînée de manière end-to-end grâce à la différentiabilité des modules proposés, et apprend à produire des cartes de profondeur régulières, aux bords nets aux frontières d'occlusion. Une évaluation étendue de notre méthode démontre qu'elle établit un nouveau état de l'art dans l'estimation de profondeur monoscopique supervisée, surpassant les méthodes précédentes sur NYU Depth-v2 ainsi que sur le split Garg de KITTI. Nos résultats produisent des cartes de profondeur permettant des reconstructions 3D plausibles des scènes d'entrée. Le code est disponible à l'adresse suivante : https://github.com/SysCV/P3Depth