HyperAIHyperAI
il y a 17 jours

MiniNet : Un réseau de neurones convolutif extrêmement léger pour l’estimation en temps réel de la profondeur monoculaire non supervisée

Jun Liu, Qing Li, Rui Cao, Wenming Tang, Guoping Qiu
MiniNet : Un réseau de neurones convolutif extrêmement léger pour l’estimation en temps réel de la profondeur monoculaire non supervisée
Résumé

La prédiction de la profondeur à partir d’une seule image constitue un sujet de recherche attrayant, car elle fournit une dimension d’information supplémentaire permettant aux machines de mieux percevoir le monde. Récemment, l’apprentissage profond est apparu comme une approche efficace pour l’estimation de la profondeur monoscopique. Étant donné que l’acquisition de données étiquetées est coûteuse, une tendance récente consiste à passer de l’apprentissage supervisé vers l’apprentissage non supervisé afin d’obtenir une estimation de profondeur monoscopique. Toutefois, la plupart des méthodes d’apprentissage non supervisé capables d’atteindre une haute précision de prédiction de profondeur nécessitent une architecture de réseau profond, qui s’avère trop lourde et complexe pour être exécutée sur des dispositifs embarqués aux capacités de stockage et de mémoire limitées. Pour résoudre ce problème, nous proposons un nouveau réseau puissant intégrant un module récurrent, capable de reproduire les performances d’un réseau profond tout en maintenant une taille extrêmement légère, permettant ainsi une prédiction en temps réel de haute performance de la profondeur monoscopique à partir de séquences vidéo, sans supervision. En outre, nous introduisons un nouveau bloc d’interpolation efficace qui fusionne les caractéristiques provenant de la couche associée de l’encodeur et permet de restaurer la taille spatiale des caractéristiques avec un nombre réduit de paramètres du modèle. Nous validons l’efficacité de notre approche à l’aide d’expériences étendues sur le jeu de données KITTI. Notre nouveau modèle peut fonctionner à environ 110 images par seconde (fps) sur une seule GPU, à 37 fps sur un seul CPU, et à 2 fps sur une Raspberry Pi 3. En outre, il atteint une précision de profondeur supérieure tout en utilisant près de 33 fois moins de paramètres que les modèles de pointe. À notre connaissance, ce travail constitue le premier réseau neuronal extrêmement léger entraîné sur des séquences vidéo monoscopiques pour une estimation en temps réel de la profondeur monoscopique non supervisée, ouvrant ainsi la voie à l’implémentation de prédiction de profondeur basée sur l’apprentissage profond, en temps réel et non supervisée, sur des dispositifs embarqués à faible coût.