HyperAIHyperAI
il y a 7 jours

NBMOD : Trouvez-le et saisissez-le dans un environnement bruyant

Boyuan Cao, Xinyu Zhou, Congmin Guo, Baohua Zhang, Yuchen Liu, Qianqiu Tan
NBMOD : Trouvez-le et saisissez-le dans un environnement bruyant
Résumé

La prise d’objets constitue une capacité fondamentale mais essentielle des robots, et de nombreuses tâches telles que le tri ou la sélection reposent sur cette compétence. Pour assurer une prise stable, il est indispensable de pouvoir identifier correctement les positions de prise adaptées. Toutefois, la détermination de points de prise appropriés reste un défi en raison de la diversité des formes, des distributions de densité variables, ainsi que des écarts significatifs entre les barycentres des différents objets. Ces dernières années, de nombreux chercheurs ont proposé diverses méthodes pour relever ces défis, obtenant des résultats très satisfaisants sur des jeux de données publics tels que le dataset Cornell et le dataset Jacquard. Le problème réside dans le fait que les arrière-plans de ces deux jeux de données sont relativement simples – généralement un tableau blanc – alors qu’en environnement réel, les arrière-plans peuvent être complexes et bruités. En outre, dans les scénarios réels, les robots doivent souvent saisir uniquement des types d’objets prédéfinis. Pour répondre à ces limitations, nous proposons un nouveau jeu de données à grande échelle pour la détection de prises, appelé NBMOD : Noisy Background Multi-Object Dataset pour la détection de prises, comprenant 31 500 images RGB-D de 20 types différents de fruits. La prédiction précise des angles reste un défi persistant dans les tâches de détection de boîtes englobantes orientées. Dans cet article, nous introduisons un mécanisme de « Rotation Anchor » (RAM) afin de surmonter ce problème. Étant donné les exigences élevées de temps réel des systèmes robotiques, nous proposons une série d’architectures légères appelées RA-GraspNet (GraspNet avec Rotation Anchor) : RARA (réseau avec Rotation Anchor et attention régionale), RAST (réseau avec Rotation Anchor et semi-transformateur) et RAGT (réseau avec Rotation Anchor et transformateur global), conçues pour traiter efficacement cette tâche. Parmi celles-ci, le modèle RAGT-3/3 atteint une précision de 99 % sur le jeu de données NBMOD. Le jeu de données NBMOD ainsi que notre code sont disponibles à l’adresse suivante : https://github.com/kmittle/Grasp-Detection-NBMOD.

NBMOD : Trouvez-le et saisissez-le dans un environnement bruyant | Articles de recherche récents | HyperAI