HyperAIHyperAI
il y a 11 jours

Amélioration de l’estimation de la pose 6-DoF d’objets par fusion multimodale : une architecture hybride CNN avec intégration croisées couche et multimodale

{Qiang Zhang, Qing Ma, Hao Wei, Xueying Sun, Zihang Wang}
Résumé

Récemment, l’utilisation des données RGB-D pour les tâches de perception robotique a suscité un intérêt croissant dans des domaines tels que la robotique et la conduite autonome. Toutefois, un défi majeur dans ce domaine réside dans l’impact important de la robustesse des caractéristiques sur les tâches de segmentation et d’estimation de pose. Pour relever ce défi, nous proposons une architecture innovante en deux étapes basée sur un réseau de neurones convolutifs (CNN) hybride, qui relie de manière séquentielle la segmentation et l’estimation de pose. Plus précisément, nous avons conçu des modules Cross-Modal (CM) et Cross-Layer (CL) afin d’exploiter les informations complémentaires provenant des modalités RGB et profondeur, ainsi que les caractéristiques hiérarchiques issues de différentes couches du réseau. La stratégie d’intégration des modules CM et CL a considérablement amélioré la précision de la segmentation en capturant efficacement les informations spatiales et contextuelles. Par ailleurs, nous avons introduit le module d’attention à bloc convolutif (CBAM), qui recalibre dynamiquement les cartes de caractéristiques, permettant au réseau de se concentrer sur les régions et canaux les plus informatifs, et ainsi d’améliorer globalement les performances de la tâche d’estimation de pose. Des expérimentations approfondies ont été menées sur des jeux de données de référence afin d’évaluer la méthode proposée, avec des résultats exceptionnels en estimation de pose cible : une précision moyenne de 94,5 % selon le critère ADD-S AUC, et 97,6 % de cas pour lesquels l’erreur ADD-S est inférieure à 2 cm. Ces résultats démontrent la supériorité de la méthode proposée.

Amélioration de l’estimation de la pose 6-DoF d’objets par fusion multimodale : une architecture hybride CNN avec intégration croisées couche et multimodale | Articles de recherche récents | HyperAI