HyperAIHyperAI
vor 7 Tagen

NBMOD: Find It and Grasp It in Noisy Background

Boyuan Cao, Xinyu Zhou, Congmin Guo, Baohua Zhang, Yuchen Liu, Qianqiu Tan
NBMOD: Find It and Grasp It in Noisy Background
Abstract

Das Greifen von Objekten ist eine grundlegende, jedoch entscheidende Fähigkeit von Robotern, und viele Aufgaben wie Sortieren und Pick-and-Place basieren auf dieser Fertigkeit. Voraussetzung für ein stabiles Greifen ist die Fähigkeit, geeignete Greifpositionen korrekt zu identifizieren. Die Suche nach geeigneten Greifpunkten ist jedoch herausfordernd, da Objekte unterschiedliche Formen aufweisen, verschiedene Dichteverteilungen besitzen und signifikante Unterschiede im Schwerpunkt aufweisen können. In den letzten Jahren haben Forscher zahlreiche Ansätze vorgeschlagen, um diese Probleme anzugehen, und erzielten auf öffentlich verfügbaren Datensätzen wie dem Cornell-Datensatz und dem Jacquard-Datensatz sehr gute Ergebnisse. Der Nachteil dieser Datensätze liegt darin, dass ihre Hintergründe relativ einfach sind – typischerweise nur eine weiße Wand – während in realen operativen Umgebungen die Hintergründe komplex und störanfällig sein können. Zudem müssen Roboter in der Praxis in der Regel nur feste Arten von Objekten greifen. Um diese Herausforderungen zu bewältigen, präsentieren wir einen großskaligen Datensatz für das Greifpunkt-Detektionsproblem namens NBMOD: Noisy Background Multi-Object Dataset for Grasp Detection. Der Datensatz umfasst 31.500 RGB-D-Bilder von 20 verschiedenen Obstsorten. Die präzise Vorhersage von Orientierungen stellt seit jeher eine herausfordernde Aufgabe bei der Detektion orientierter Umhüllungsboxen dar. In dieser Arbeit stellen wir einen Rotation Anchor Mechanism (RAM) vor, um dieses Problem zu lösen. Angesichts der hohen Echtzeitanforderungen robotischer Systeme entwickeln wir eine Reihe leichtgewichtiger Architekturen namens RA-GraspNet (GraspNet mit Rotation Anchor): RARA (Netzwerk mit Rotation Anchor und Region Attention), RAST (Netzwerk mit Rotation Anchor und Semi-Transformer) und RAGT (Netzwerk mit Rotation Anchor und Global Transformer). Unter diesen erreicht das RAGT-3/3-Modell eine Genauigkeit von 99 % auf dem NBMOD-Datensatz. Der NBMOD-Datensatz und unser Quellcode sind unter https://github.com/kmittle/Grasp-Detection-NBMOD verfügbar.

NBMOD: Find It and Grasp It in Noisy Background | Neueste Forschungsarbeiten | HyperAI