HyperAIHyperAI
il y a 11 jours

Apprentissage non supervisé de profondeur cohérente à l’échelle à partir de vidéos

Jia-Wang Bian, Huangying Zhan, Naiyan Wang, Zhichao Li, Le Zhang, Chunhua Shen, Ming-Ming Cheng, Ian Reid
Apprentissage non supervisé de profondeur cohérente à l’échelle à partir de vidéos
Résumé

Nous proposons un estimateur de profondeur monocular SC-Depth, qui nécessite uniquement des vidéos non étiquetées pour l'entraînement et permet une prédiction cohérente à l’échelle au moment de l’inférence. Nos contributions principales sont les suivantes : (i) nous introduisons une perte de cohérence géométrique, qui pénalise les incohérences entre les profondeurs prédites à partir de vues adjacentes ; (ii) nous proposons un masque auto-découvert, capable de localiser automatiquement les objets en mouvement qui violent l’hypothèse fondamentale de scène statique et génèrent des signaux bruités pendant l’entraînement ; (iii) nous démontrons l’efficacité de chaque composant grâce à une étude ablation détaillée, et présentons des résultats de prédiction de profondeur de haute qualité sur les jeux de données KITTI et NYUv2. En outre, grâce à la capacité de prédiction cohérente à l’échelle, nous montrons que nos réseaux profonds entraînés en mode monocular peuvent être facilement intégrés dans le système ORB-SLAM2 pour une traçabilité plus robuste et précise. Le système hybride de SLAM pseudo-RGBD proposé obtient des résultats convaincants sur KITTI et se généralise efficacement au jeu de données KAIST sans entraînement supplémentaire. Enfin, nous fournissons plusieurs démonstrations pour une évaluation qualitative.

Apprentissage non supervisé de profondeur cohérente à l’échelle à partir de vidéos | Articles de recherche récents | HyperAI