HyperAIHyperAI
il y a 2 mois

Frustum VoxNet pour la détection d'objets 3D à partir d'images RGB-D ou de profondeur

Xiaoke Shen; Ioannis Stamos
Frustum VoxNet pour la détection d'objets 3D à partir d'images RGB-D ou de profondeur
Résumé

Récemment, de nombreux systèmes de classification et de détection ont été développés à partir d'images RGB ainsi que 3D. Dans ce travail, nous décrivons un nouveau système de détection d'objets 3D à partir d'un nuage de points RGB-D ou uniquement profondeur. Notre système détecte d'abord les objets en 2D (soit à partir d'images RGB, soit à partir d'images pseudo-RGB construites à partir de la profondeur). La prochaine étape consiste à détecter des objets 3D au sein des frustums 3D définis par ces détections 2D. Cela est réalisé en voxelisant certaines parties des frustums (puisque les frustums peuvent être vraiment grands), plutôt qu'en utilisant l'intégralité des frustums comme c'était le cas dans les travaux antérieurs. L'innovation principale de notre système réside dans la détermination des parties (propositions 3D) des frustums à voxeliser, ce qui nous permet de fournir des représentations à haute résolution autour des objets d'intérêt. Cela permet également à notre système de réduire ses besoins en mémoire. Ces propositions 3D sont ensuite alimentées à un réseau neuronal convolutif entièrement 3D basé sur ResNet (FCN). Notre système de détection 3D est rapide et peut être intégré dans une plateforme robotique. Par rapport aux systèmes qui ne réalisent pas la voxelisation (comme PointNet), nos méthodes peuvent fonctionner sans nécessiter un sous-échantillonnage des jeux de données. Nous avons également introduit une approche par pipeline qui améliore encore l'efficacité de notre système. Les résultats sur le jeu de données SUN RGB-D montrent que notre système, basé sur un petit réseau, peut traiter 20 images par seconde avec des résultats de détection comparables à l'état de l'art, atteignant ainsi un gain de vitesse de deux fois.

Frustum VoxNet pour la détection d'objets 3D à partir d'images RGB-D ou de profondeur | Articles de recherche récents | HyperAI