HyperAIHyperAI

Command Palette

Search for a command to run...

ImGeoNet : Représentation par voxels sensible à la géométrie induite par l'image pour la détection 3D multi-vue d'objets

Tao Tu Shun-Po Chuang Yu-Lun Liu Cheng Sun Ke Zhang Donna Roy Cheng-Hao Kuo Min Sun

Résumé

Nous proposons ImGeoNet, un cadre de détection d'objets 3D basé sur des images multi-vues, qui modélise l'espace 3D à l’aide d’une représentation par voxels sensible à la géométrie induite par les images. Contrairement aux méthodes antérieures qui agrègent des caractéristiques 2D dans des voxels 3D sans tenir compte de la géométrie, ImGeoNet apprend à induire la géométrie à partir d’images multi-vues afin de réduire les ambiguïtés liées aux voxels correspondant à l’espace libre, et pendant la phase d’inférence, seules les images provenant de plusieurs vues sont nécessaires. En outre, notre représentation permet d’exploiter un extracteur de caractéristiques 2D pré-entraîné puissant, conduisant à une performance plus robuste. Pour évaluer l’efficacité d’ImGeoNet, nous menons des expériences quantitatives et qualitatives sur trois jeux de données intérieurs : ARKitScenes, ScanNetV2 et ScanNet200. Les résultats montrent qu’ImGeoNet surpasser le meilleur état de l’art actuel en détection d’objets 3D basée sur des images multi-vues, ImVoxelNet, sur les trois jeux de données en termes de précision de détection. En outre, ImGeoNet démontre une grande efficacité en données, en atteignant des performances comparables à celles d’ImVoxelNet avec 100 vues tout en utilisant uniquement 40 vues. Enfin, nos études indiquent que la représentation géométrique induite par les images proposée ici permet aux méthodes basées sur les images d’atteindre une précision de détection supérieure à celle de la méthode fondatrice basée sur les nuages de points, VoteNet, dans deux scénarios pratiques : (1) des situations où les nuages de points sont rares et bruités, comme dans ARKitScenes, et (2) des situations impliquant une grande diversité de classes d’objets, notamment des objets de petite taille, comme dans ScanNet200.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
ImGeoNet : Représentation par voxels sensible à la géométrie induite par l'image pour la détection 3D multi-vue d'objets | Articles | HyperAI