HyperAIHyperAI
il y a 11 jours

PoET : Pose Estimation Transformer pour l'estimation 6D multi-objets à vue unique

Thomas Jantos, Mohamed Amin Hamdad, Wolfgang Granig, Stephan Weiss, Jan Steinbrener
PoET : Pose Estimation Transformer pour l'estimation 6D multi-objets à vue unique
Résumé

L’estimation précise de la pose 6D des objets constitue une tâche cruciale pour de nombreuses applications robotiques, telles que la saisie ou la localisation. Ce problème est particulièrement difficile en raison des symétries des objets, du désordre ambiant et des occlusions, et devient encore plus complexe lorsque des informations supplémentaires, comme les cartes de profondeur ou les modèles 3D, ne sont pas disponibles. Nous proposons une approche basée sur un transformateur qui prend une image RGB en entrée et prédit une pose 6D pour chaque objet présent dans l’image. Contrairement à de nombreuses méthodes existantes, notre réseau ne nécessite aucune information supplémentaire, telle que des cartes de profondeur ou des modèles 3D d’objets. Tout d’abord, l’image est traitée par un détecteur d’objets afin d’extraire des cartes de caractéristiques et de localiser les objets. Ensuite, ces cartes de caractéristiques sont introduites dans un transformateur, où les boîtes englobantes détectées servent d’informations supplémentaires. Enfin, les requêtes d’objets issues de la sortie du transformateur sont traitées par deux têtes distinctes, l’une pour la translation et l’autre pour la rotation. Nos résultats atteignent l’état de l’art pour les approches ne s’appuyant que sur des images RGB sur le dataset exigeant YCB-V. Nous démontrons également la pertinence du modèle obtenu en tant que capteur de pose pour des tâches d’estimation d’état à 6 degrés de liberté. Le code est disponible à l’adresse suivante : https://github.com/aau-cns/poet.

PoET : Pose Estimation Transformer pour l'estimation 6D multi-objets à vue unique | Articles de recherche récents | HyperAI