HyperAIHyperAI
il y a 16 jours

Apprentissage de la régression de pose absolue multi-scènes avec des Transformers

Yoli Shavit, Ron Ferens, Yosi Keller
Apprentissage de la régression de pose absolue multi-scènes avec des Transformers
Résumé

Les régresseurs de pose absolue de caméra estiment la position et l’orientation d’une caméra à partir d’une seule image capturée. En général, un squelette convolutif associé à une tête composée d’un perceptron multicouche est entraîné à partir d’images et d’étiquettes de pose pour encoder une seule scène de référence à la fois. Récemment, cette approche a été étendue à l’apprentissage de plusieurs scènes en remplaçant la tête MLP par un ensemble de couches entièrement connectées. Dans ce travail, nous proposons d’apprendre la régression de la pose absolue multi-scènes à l’aide de Transformers, où les encodeurs exploitent l’attention mutuelle pour agréger les cartes d’activation, tandis que les décodeurs transforment les caractéristiques latentes et les encodages des scènes en prédictions de pose candidates. Ce mécanisme permet à notre modèle de se concentrer sur des caractéristiques générales pertinentes pour la localisation, tout en intégrant plusieurs scènes en parallèle. Nous évaluons notre méthode sur des jeux de données intérieurs et extérieurs couramment utilisés comme benchmarks, et démontrons qu’elle surpasser à la fois les régresseurs multi-scènes et les meilleurs modèles actuels pour la régression de pose absolue en scène unique. Le code de notre travail est mis à disposition publiquement à l’adresse suivante : https://github.com/yolish/multi-scene-pose-transformer.

Apprentissage de la régression de pose absolue multi-scènes avec des Transformers | Articles de recherche récents | HyperAI