il y a 11 jours

VMLoc : Fusion variationnelle pour la localisation multimodale basée sur l'apprentissage avec des caméras

Kaichen Zhou, Changhao Chen, Bing Wang, Muhamad Risqi U. Saputra, Niki Trigoni, Andrew Markham

Résumé

Les approches récentes fondées sur l’apprentissage ont obtenu des résultats remarquables dans le domaine de la localisation caméra en une seule prise. Toutefois, la manière optimale de fusionner plusieurs modalités (par exemple, image et profondeur) et de traiter les entrées dégradées ou manquantes reste moins bien étudiée. En particulier, nous observons que les approches précédentes de fusion profonde ne se distinguent pas significativement des modèles utilisant une seule modalité. Nous supposons que cela s’explique par des méthodes naïves de fusion dans l’espace des caractéristiques, basées sur l’addition ou la concaténation, qui ne tiennent pas compte des forces respectives de chaque modalité. Pour remédier à ce problème, nous proposons un cadre end-to-end, nommé VMLoc, qui fusionne les entrées provenant de différents capteurs dans un espace latente commun grâce à un produit de experts variationnel (PoE) suivi d’une fusion basée sur l’attention. Contrairement aux travaux antérieurs sur la multimodalité variationnelle qui adaptaient directement la fonction objectif d’un auto-encodeur variationnel classique, nous démontrons comment la localisation caméra peut être estimée avec précision à l’aide d’une fonction objectif non biaisée fondée sur le poids par importance. Notre modèle est rigoureusement évalué sur des jeux de données RGB-D, et les résultats confirment l’efficacité de notre approche. Le code source est disponible à l’adresse suivante : https://github.com/kaichen-z/VMLoc.