CamLessMonoDepth : Estimation monoscopique de profondeur avec des paramètres de caméra inconnus

La perception de l’information en 3D revêt une importance capitale dans de nombreuses applications de vision par ordinateur. Les avancées récentes en estimation de profondeur à partir d’une seule caméra ont montré qu’il est possible d’acquérir cette connaissance à partir d’une entrée vidéo monoculaire en entraînant des réseaux neuronaux profonds pour prédire la profondeur inverse et la pose, sans nécessiter de données de référence (ground truth). Toutefois, la majorité de ces approches exigent que les paramètres de la caméra soient fournis explicitement durant l’entraînement, ce qui empêche l’utilisation de séquences d’images provenant du monde réel (wild). Bien qu’il existe des méthodes capables de prédire également les intrinsèques de la caméra, leurs performances ne sont pas encore comparables à celles des nouvelles approches qui prennent les paramètres de la caméra comme entrée. Dans ce travail, nous proposons une méthode pour une estimation implicite des intrinsèques de caméra à foyer unique, conjointement avec la profondeur et la pose, en ne s’appuyant que sur des séquences d’images monoculaires. En outre, en exploitant des convolutions sous-pixel efficaces, nous démontrons qu’il est possible d’obtenir des estimations de profondeur de haute fidélité. Nous intégrons également une estimation d’incertitude au niveau de chaque pixel dans le cadre, soulignant ainsi le potentiel d’application pratique de cette méthode. Enfin, nous montrons qu’il est possible de prédire avec précision l’information de profondeur sans connaissance préalable des intrinsèques de la caméra, tout en surpassant les approches de l’état de l’art existantes sur le benchmark KITTI.