HyperAIHyperAI

Command Palette

Search for a command to run...

ImVoxelNet : Projection Image vers Voxels pour la Détection Générale d'Objets 3D à Vue Unique et Multi-Vues

Danila Rukhovich Anna Vorontsova Anton Konushin

Résumé

Dans cet article, nous introduisons la détection d'objets 3D à partir d'images RGB multi-vues comme un problème d'optimisation end-to-end. Pour résoudre ce problème, nous proposons ImVoxelNet, une nouvelle méthode entièrement convolutive pour la détection d'objets 3D basée sur des images RGB monovues ou multi-vues. Le nombre d'images monovues dans chaque entrée multi-vue peut varier durant l'entraînement et l'inférence ; en réalité, ce nombre peut être différent pour chaque entrée multi-vue. ImVoxelNet traite efficacement à la fois les scènes intérieures et extérieures, ce qui en fait une approche générale. Plus précisément, elle obtient des résultats de pointe dans la détection de voitures sur les benchmarks KITTI (monovue) et nuScenes (multi-vue) parmi toutes les méthodes acceptant des images RGB. En outre, elle dépasse les méthodes existantes de détection d'objets 3D basées sur les images RGB sur le jeu de données SUN RGB-D. Sur ScanNet, ImVoxelNet établit une nouvelle référence pour la détection d'objets 3D multi-vues. Le code source et les modèles entraînés sont disponibles à l'adresse suivante : https://github.com/saic-vul/imvoxelnet.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp