Zur tiefen Lernbasierten Schätzung der 6D-Behälterpose in 3D-Scans

Ein automatisiertes robotisches System sollte grundsätzlich so robust wie möglich und fehlerfrei sein, gleichzeitig aber auch eine relativ hohe Genauigkeit und Wiederholgenauigkeit aufweisen. Obwohl tiefes Lernen basierende Ansätze zunehmend zum Forschungsstandard für die Behandlung von 3D-Scan- und Bildverarbeitungsaufgaben werden, bleibt der industrielle Standard zur Verarbeitung dieser Daten weiterhin auf analytischen Methoden basiert. In unserer Arbeit wird behauptet, dass analytische Methoden weniger robust sind und sich schwerer testen, aktualisieren und warten lassen. Der Fokus dieser Arbeit liegt auf einer spezifischen Aufgabe: der 6D-Pose-Schätzung eines Behälters anhand von 3D-Scans. Daher präsentieren wir eine hochwertige Datensammlung, die aus synthetischen Daten und realen Scans besteht, die mit einem Strukturiert-Licht-Scanner erfasst wurden und präzise Annotationen aufweisen. Zusätzlich schlagen wir zwei unterschiedliche Ansätze zur 6D-Behälter-Pose-Schätzung vor: eine analytische Methode als Industriestandard und eine Basisdaten-getriebene Methode. Beide Ansätze werden wechselseitig evaluiert, und unsere Experimente zeigen, dass die Erweiterung des Trainings mit synthetischen Daten die Leistung unseres vorgeschlagenen datenbasierten neuronalen Modells verbessert. Dieser Positionspapier ist vorläufig, da die vorgeschlagenen Methoden bisher auf einer relativ kleinen anfänglichen Datensammlung trainiert und evaluiert wurden, die wir in Zukunft erweitern planen.