HyperAIHyperAI

Command Palette

Search for a command to run...

NBMOD: Find It and Grasp It in Noisy Background

Boyuan Cao Xinyu Zhou Congmin Guo Baohua Zhang Yuchen Liu Qianqiu Tan

Zusammenfassung

Das Greifen von Objekten ist eine grundlegende, jedoch entscheidende Fähigkeit von Robotern, und viele Aufgaben wie Sortieren und Pick-and-Place basieren auf dieser Fertigkeit. Voraussetzung für ein stabiles Greifen ist die Fähigkeit, geeignete Greifpositionen korrekt zu identifizieren. Die Suche nach geeigneten Greifpunkten ist jedoch herausfordernd, da Objekte unterschiedliche Formen aufweisen, verschiedene Dichteverteilungen besitzen und signifikante Unterschiede im Schwerpunkt aufweisen können. In den letzten Jahren haben Forscher zahlreiche Ansätze vorgeschlagen, um diese Probleme anzugehen, und erzielten auf öffentlich verfügbaren Datensätzen wie dem Cornell-Datensatz und dem Jacquard-Datensatz sehr gute Ergebnisse. Der Nachteil dieser Datensätze liegt darin, dass ihre Hintergründe relativ einfach sind – typischerweise nur eine weiße Wand – während in realen operativen Umgebungen die Hintergründe komplex und störanfällig sein können. Zudem müssen Roboter in der Praxis in der Regel nur feste Arten von Objekten greifen. Um diese Herausforderungen zu bewältigen, präsentieren wir einen großskaligen Datensatz für das Greifpunkt-Detektionsproblem namens NBMOD: Noisy Background Multi-Object Dataset for Grasp Detection. Der Datensatz umfasst 31.500 RGB-D-Bilder von 20 verschiedenen Obstsorten. Die präzise Vorhersage von Orientierungen stellt seit jeher eine herausfordernde Aufgabe bei der Detektion orientierter Umhüllungsboxen dar. In dieser Arbeit stellen wir einen Rotation Anchor Mechanism (RAM) vor, um dieses Problem zu lösen. Angesichts der hohen Echtzeitanforderungen robotischer Systeme entwickeln wir eine Reihe leichtgewichtiger Architekturen namens RA-GraspNet (GraspNet mit Rotation Anchor): RARA (Netzwerk mit Rotation Anchor und Region Attention), RAST (Netzwerk mit Rotation Anchor und Semi-Transformer) und RAGT (Netzwerk mit Rotation Anchor und Global Transformer). Unter diesen erreicht das RAGT-3/3-Modell eine Genauigkeit von 99 % auf dem NBMOD-Datensatz. Der NBMOD-Datensatz und unser Quellcode sind unter https://github.com/kmittle/Grasp-Detection-NBMOD verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp