Segmentation sémantique et estimation de profondeur en temps réel à l'aide d'annotations asymétriques

Le déploiement de modèles d'apprentissage profond en robotique en tant qu'extracteurs d'informations sensorielles peut être une tâche ardue, même avec l'utilisation de cartes GPU génériques. Dans cet article, nous abordons trois des obstacles les plus importants : i) l'adaptation d'un seul modèle pour effectuer plusieurs tâches simultanément (dans ce travail, nous considérons que l'estimation de la profondeur et la segmentation sémantique sont essentielles pour acquérir une compréhension géométrique et sémantique de la scène), tout en ii) le faisant en temps réel, et iii) en utilisant des jeux de données asymétriques avec un nombre inégal d'annotations pour chaque modalité. Pour surmonter les deux premiers défis, nous adaptons un réseau de segmentation sémantique en temps réel récemment proposé, apportant des modifications pour réduire encore davantage le nombre d'opérations à virgule flottante. Pour aborder le troisième défi, nous adoptons une solution simple basée sur la distillation de connaissances rigides sous l'hypothèse d'avoir accès à un réseau « enseignant » puissant. Nous montrons comment notre système peut être facilement étendu pour gérer plus de tâches et plus de jeux de données, tout en effectuant l'estimation de la profondeur et la segmentation à la fois en intérieur et en extérieur avec un seul modèle. Quantitativement, nous obtenons des résultats équivalents ou supérieurs aux approches actuelles de pointe avec une seule passe avant coûtant seulement 13 ms et 6,5 GFLOPs sur des entrées 640x480. Cette efficacité nous permet d'intégrer directement les prédictions brutes de notre réseau dans le cadre SemanticFusion pour une reconstruction sémantique dense 3D de la scène.