HyperAIHyperAI
il y a 11 jours

ImGeoNet : Représentation par voxels sensible à la géométrie induite par l'image pour la détection 3D multi-vue d'objets

Tao Tu, Shun-Po Chuang, Yu-Lun Liu, Cheng Sun, Ke Zhang, Donna Roy, Cheng-Hao Kuo, Min Sun
ImGeoNet : Représentation par voxels sensible à la géométrie induite par l'image pour la détection 3D multi-vue d'objets
Résumé

Nous proposons ImGeoNet, un cadre de détection d'objets 3D basé sur des images multi-vues, qui modélise l'espace 3D à l’aide d’une représentation par voxels sensible à la géométrie induite par les images. Contrairement aux méthodes antérieures qui agrègent des caractéristiques 2D dans des voxels 3D sans tenir compte de la géométrie, ImGeoNet apprend à induire la géométrie à partir d’images multi-vues afin de réduire les ambiguïtés liées aux voxels correspondant à l’espace libre, et pendant la phase d’inférence, seules les images provenant de plusieurs vues sont nécessaires. En outre, notre représentation permet d’exploiter un extracteur de caractéristiques 2D pré-entraîné puissant, conduisant à une performance plus robuste. Pour évaluer l’efficacité d’ImGeoNet, nous menons des expériences quantitatives et qualitatives sur trois jeux de données intérieurs : ARKitScenes, ScanNetV2 et ScanNet200. Les résultats montrent qu’ImGeoNet surpasser le meilleur état de l’art actuel en détection d’objets 3D basée sur des images multi-vues, ImVoxelNet, sur les trois jeux de données en termes de précision de détection. En outre, ImGeoNet démontre une grande efficacité en données, en atteignant des performances comparables à celles d’ImVoxelNet avec 100 vues tout en utilisant uniquement 40 vues. Enfin, nos études indiquent que la représentation géométrique induite par les images proposée ici permet aux méthodes basées sur les images d’atteindre une précision de détection supérieure à celle de la méthode fondatrice basée sur les nuages de points, VoteNet, dans deux scénarios pratiques : (1) des situations où les nuages de points sont rares et bruités, comme dans ARKitScenes, et (2) des situations impliquant une grande diversité de classes d’objets, notamment des objets de petite taille, comme dans ScanNet200.

ImGeoNet : Représentation par voxels sensible à la géométrie induite par l'image pour la détection 3D multi-vue d'objets | Articles de recherche récents | HyperAI