HyperAIHyperAI

Command Palette

Search for a command to run...

MinkLoc++ : Fusion de lidar et d'images monoculaires pour la reconnaissance des lieux

Jacek Komorowski Monika Wysoczańska Tomasz Trzcinski

Résumé

Nous présentons un descripteur multimodal discriminatif basé sur une paire de lectures de capteurs : un nuage de points provenant d'un LiDAR et une image provenant d'une caméra RGB. Notre descripteur, nommé MinkLoc++, peut être utilisé pour la reconnaissance des lieux, la rélocalisation et la fermeture de boucle dans les applications de robotique ou de véhicules autonomes. Nous utilisons une approche de fusion tardive, où chaque modalité est traitée séparément et fusionnée dans la partie finale du pipeline de traitement. La méthode proposée atteint des performances de pointe sur des benchmarks standardisés de reconnaissance des lieux. Nous identifions également le problème de modalité dominante lors de l'entraînement d'un descripteur multimodal. Ce problème se manifeste lorsque le réseau se concentre sur une modalité avec une plus grande suradaptation aux données d'entraînement. Cela fait baisser la perte pendant l'entraînement mais entraîne des performances sous-optimales sur l'ensemble d'évaluation. Dans ce travail, nous décrivons comment détecter et atténuer ce risque lorsqu'on utilise une approche d'apprentissage métrique profond pour entraîner un réseau neuronal multimodal. Notre code est disponible au public sur le site web du projet : https://github.com/jac99/MinkLocMultimodal.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp