End-to-End trainierbares tiefes neuronales Netzwerk für die Roboter-Griff-Erkennung und semantische Segmentierung aus RGB

In dieser Arbeit stellen wir eine neuartige, end-to-end trainierbare CNN-basierte Architektur vor, die hochwertige Ergebnisse für die Greifpunkt-Detektion geeignet für einen parallelen Plattendgriff und die semantische Segmentierung liefert. Ausgehend davon schlagen wir ein neuartiges Nachbearbeitungsmodul vor, das auf bereits berechnete Ergebnisse der Greifpunkt-Detektion und semantischen Segmentierung zurückgreift und die Genauigkeit der Greifpunkt-Detektion weiter verbessert. Unser vorgeschlagenes Netzwerk erreicht eine state-of-the-art Genauigkeit auf zwei gängigen Greifpunkt-Datensätzen, nämlich Cornell und Jacquard. Als zusätzlichen Beitrag präsentieren wir eine neue Erweiterung des OCID-Datensatzes, die es ermöglicht, die Greifpunkt-Detektion in besonders anspruchsvollen Szenen zu evaluieren. Anhand dieses Datensatzes zeigen wir, dass semantische Segmentierung zudem zur Zuordnung von Greifkandidaten zu Objektklassen genutzt werden kann, was wiederum die gezielte Auswahl spezifischer Objekte in der Szene ermöglicht.