Disp R-CNN : Détection d'objets 3D stéréoscopique par estimation de disparité d'instance guidée par des a priori de forme

Dans cet article, nous proposons un nouveau système nommé Disp R-CNN pour la détection d'objets 3D à partir d'images stéréoscopiques. De nombreuses études récentes abordent ce problème en récupérant d'abord un nuage de points par l'estimation de disparité, puis en appliquant un détecteur 3D. La carte de disparité est calculée pour l'ensemble de l'image, ce qui est coûteux et ne permet pas d'exploiter les a priori spécifiques à chaque catégorie. En revanche, nous avons conçu un réseau d'estimation de disparité par instance (iDispNet) qui prédit la disparité uniquement pour les pixels situés sur les objets d'intérêt et apprend un a priori de forme spécifique à chaque catégorie pour une estimation de disparité plus précise. Pour relever le défi lié à la rareté des annotations de disparité lors de l'entraînement, nous proposons d'utiliser un modèle statistique de forme pour générer une pseudo-vérité terrain dense en disparité sans nécessiter des nuages de points LiDAR, ce qui rend notre système plus largement applicable. Les expériences menées sur le jeu de données KITTI montrent que, même lorsque la vérité terrain LiDAR n'est pas disponible pendant l'entraînement, Disp R-CNN atteint des performances compétitives et surpasses les méthodes précédentes de pointe avec une amélioration de 20 % en termes de précision moyenne.