GeoNet : Apprentissage non supervisé de la profondeur dense, du flot optique et de la pose caméra

Nous proposons GeoNet, un cadre d'apprentissage non supervisé conjoint pour l'estimation de la profondeur monoculaire, du flot optique et du mouvement égocentrique à partir de vidéos. Les trois composants sont liés par la nature de la géométrie de la scène 3D et sont appris conjointement par notre cadre d'une manière bout-à-bout (end-to-end). Plus précisément, les relations géométriques sont extraites sur les prédictions des modules individuels puis combinées en une perte de reconstruction d'image, en raisonnant séparément sur les parties statiques et dynamiques de la scène. De plus, nous proposons une perte de cohérence géométrique adaptative pour augmenter la robustesse face aux valeurs aberrantes et aux régions non lambertiennes, ce qui résout efficacement les occultations et les ambiguïtés texturales. Les expérimentations sur le jeu de données KITTI révèlent que notre méthode atteint des résultats d'état de l'art dans chacune des trois tâches, surpassant les méthodes non supervisées précédentes et se comparant favorablement aux méthodes supervisées.