GraspNet-1Billion: Ein großskaliger Benchmark für allgemeines Greifen von Objekten

Das Greifen von Objekten ist für zahlreiche Anwendungen von entscheidender Bedeutung und stellt gleichzeitig eine herausfordernde Aufgabe im Bereich der Computer Vision dar. Insbesondere in stark verunreinigten Szenen leiden derzeitige Forschungsansätze jedoch unter mangelnden Trainingsdaten und fehlenden Evaluationsbenchmarks. In dieser Arbeit tragen wir einen großskaligen Datensatz zur Detektion von Greifpositionen mit einem einheitlichen Evaluierungssystem bei. Unser Datensatz umfasst 97.280 RGB-D-Bilder mit über einer Milliarde Greifpositionen. Gleichzeitig ermöglicht unser Evaluierungssystem durch analytische Berechnung eine direkte Angabe, ob ein Greifversuch erfolgreich war, wodurch beliebige Greifpositionen bewertet werden können, ohne dass ground-truth-Labels erschöpfend erfasst werden müssen. Darüber hinaus schlagen wir ein end-to-end-Netzwerk zur Vorhersage von Greifpositionen unter Verwendung von Punktewolken als Eingabe vor, bei dem der Annäherungsrichtung und die Operationsparameter dekupelt gelernt werden. Zudem wird ein neuartiges Greif-Ähnlichkeitsfeld vorgestellt, das die Robustheit des Greifens verbessert. Umfassende Experimente zeigen, dass unser Datensatz und Evaluierungssystem gut mit realen Experimenten übereinstimmen und das vorgeschlagene Netzwerk die derzeit beste Leistung erzielt. Unser Datensatz, der Quellcode und die Modelle sind öffentlich unter www.graspnet.net verfügbar.