Command Palette
Search for a command to run...
Vers une meilleure généralisation : apprentissage conjoint de la profondeur et de la pose sans PoseNet
Vers une meilleure généralisation : apprentissage conjoint de la profondeur et de la pose sans PoseNet
Wang Zhao Shaohui Liu Yezhi Shu Yong-Jin Liu
Résumé
Dans ce travail, nous abordons le problème fondamental de l'incohérence d'échelle dans l'apprentissage auto-supervisé conjoint de la profondeur et de la pose. La plupart des méthodes existantes supposent qu'une échelle cohérente pour la profondeur et la pose peut être apprise sur tous les échantillons d'entrée, ce qui rend le problème d'apprentissage plus difficile, entraînant une dégradation des performances et une généralisation limitée dans les environnements intérieurs ainsi que dans les applications de visual odométrie à longue séquence. Pour résoudre ce problème, nous proposons un nouveau système qui déconnecte explicitement l'échelle de l'estimation réalisée par le réseau. Contrairement aux approches basées sur l'architecture PoseNet, notre méthode récupère la pose relative en résolvant directement la matrice fondamentale à partir de correspondances de flux optique dense, et utilise un module de triangulation à deux vues pour reconstruire une structure 3D à échelle indéterminée. Ensuite, nous alignons l'échelle de la prédiction de profondeur avec le nuage de points triangulé, et utilisons la carte de profondeur transformée pour le calcul de l'erreur de profondeur et le contrôle de reprojection dense. L'ensemble du système peut être entraîné de manière end-to-end. Des expériences étendues montrent que notre système atteint des performances de pointe sur les tâches de prédiction de profondeur et de flux optique sur le jeu de données KITTI, tout en améliorant significativement la capacité de généralisation des méthodes existantes d'apprentissage auto-supervisé de profondeur et de pose dans diverses scénarios exigeants. Il obtient également des résultats de pointe parmi les méthodes basées sur l'apprentissage auto-supervisé sur les jeux de données KITTI Odometry et NYUv2. En outre, nous présentons des observations intéressantes concernant les limites des méthodes basées sur PoseNet pour l'estimation de pose relative en termes de capacité de généralisation. Le code est disponible à l'adresse suivante : https://github.com/B1ueber2y/TrianFlow.