Apprentissage de l'estimation de profondeur monoculaire avec des hypothèses trinoculaires non supervisées

L'obtention de mesures de profondeur précises à partir d'une seule image représente une solution fascinante pour la perception 3D. Les réseaux de neurones convolutifs (CNN) ont permis des améliorations considérables dans ce domaine, et les tendances récentes ont remplacé le besoin de labels vérités-terrain par des signaux de reconstruction d'image guidés par la géométrie, permettant un entraînement non supervisé. Actuellement, pour cette tâche, les techniques les plus avancées s'appuient sur des images acquises avec un dispositif stéréoscopique binoculaire pour prédire l'inverse de la profondeur (c'est-à-dire la disparité) selon le principe de supervision mentionné. Cependant, ces méthodes souffrent de problèmes bien connus près des occultations, du bord gauche de l'image, etc., hérités du dispositif stéréoscopique. Par conséquent, dans cet article, nous abordons ces problèmes en passant à un domaine trinoculaire pour l'entraînement. En prenant comme référence l'image centrale, nous entraînons un CNN pour inférer des représentations de disparité en associant cette image aux cadres situés à sa gauche et à sa droite. Cette stratégie permet d'obtenir des cartes de profondeur exemptes des artefacts typiques stéréoscopiques. De plus, étant donné que les jeux de données trinoculaires sont rarement disponibles, nous introduisons une nouvelle procédure d'entraînement entrelacée permettant d'imposer l'hypothèse trinoculaire déduite des jeux de données binoculaires actuels. Des résultats expérimentaux exhaustifs sur le jeu de données KITTI confirment que notre proposition surpassent les méthodes les plus avancées pour l'estimation non supervisée de la profondeur monoculaire formées sur des paires stéréoscopiques binoculaires ainsi que toutes les méthodes connues reposant sur d'autres indices.