Segmentierung unbekannter 3D-Objekte aus realen Tiefenbildern unter Verwendung von Mask R-CNN, das auf synthetischen Daten trainiert wurde

Die Fähigkeit, unbekannte Objekte in Tiefenbildern zu segmentieren, hat das Potenzial, die Roboterfähigkeiten im Greifen und Objektverfolgen zu verbessern. Neueste Forschungen im Bereich Computer Vision haben gezeigt, dass Mask R-CNN trainiert werden kann, um spezifische Kategorien von Objekten in RGB-Bildern zu segmentieren, wenn große handannotierte Datensätze verfügbar sind. Da die Erstellung dieser Datensätze zeitaufwendig ist, verwenden wir stattdessen synthetische Tiefenbilder. Viele Roboter nutzen heute Tiefensensoren, und jüngste Ergebnisse deuten darauf hin, dass das Training auf synthetischen Tiefendaten erfolgreich in die reale Welt übertragen werden kann. Wir präsentieren eine Methode zur automatisierten Datenerzeugung und erzeugen schnell einen synthetischen Trainingsdatensatz mit 50.000 Tiefenbildern und 320.000 Objektmasken unter Verwendung simulierter Haufen aus 3D-CAD-Modellen. Wir trainieren eine Variante von Mask R-CNN mit Domänenrandomisierung auf dem generierten Datensatz, um kategorieunabhängige Instanzsegmentierung ohne handannotierte Daten durchzuführen und bewerten das trainierte Netzwerk, das wir als Synthetic Depth (SD) Mask R-CNN bezeichnen, anhand einer Reihe von realen hochaufgelösten Tiefenbildern von herausfordernden, dicht verstreuten Behältern mit Objekten von höchst unterschiedlicher Geometrie. SD Mask R-CNN übertrifft die Baseline-Methoden der Punktwolkenclustering um 15 % absolut in der durchschnittlichen Präzision (Average Precision) und um 20 % in der durchschnittlichen Rückrufquote (Average Recall) bei den COCO-Benchmarks und erreicht Leistungsstufen vergleichbar mit einem Mask R-CNN, das auf einem großen handannotierten RGB-Datensatz trainiert wurde und anhand echter Bilder aus der experimentellen Aufstellung feinjustiert wurde. Wir integrieren das Modell in einen instanzspezifischen Greifpipeline-Prozess, um seine Nützlichkeit für Anwendungen im Robotikbereich zu demonstrieren. Der Code, der synthetische Trainingsdatensatz sowie ergänzendes Material sind unter https://bit.ly/2letCuE erhältlich.