TransCG: Ein umfangreiches realweltliches Datensatz für die Tiefenvervollständigung durchsichtiger Objekte und eine Greif-Baseline

Transparente Objekte sind in unserem Alltag weit verbreitet und werden häufig in automatisierten Fertigungsprozessen verarbeitet. Eine robuste, bildbasierte robotergesteuerte Greif- und Manipulationstechnik für diese Objekte wäre für die Automatisierung von großem Nutzen. Der Großteil der aktuellen Greifalgorithmen scheitert jedoch an diesem Anforderungsprofil, da sie stark auf Tiefenbildern basieren, während herkömmliche Tiefensensoren aufgrund von Reflexion und Brechung von Licht in der Regel keine genaue Tiefeninformation für transparente Objekte liefern können. In dieser Arbeit adressieren wir dieses Problem durch die Bereitstellung eines umfangreichen, realweltlichen Datensatzes zur Tiefenvervollständigung transparenter Objekte, der 57.715 RGB-D-Bilder aus 130 verschiedenen Szenen enthält. Unser Datensatz ist der erste umfangreiche, realweltliche Datensatz, der Grundwahrheitstiefen (ground truth depth), Oberflächennormalen und transparente Masken in vielfältigen und komplexen Szenen bereitstellt. Kreuzdomänen-Experimente zeigen, dass unser Datensatz allgemeiner ist und eine bessere Generalisierungsfähigkeit von Modellen ermöglicht. Darüber hinaus schlagen wir ein end-to-end-Tiefenvervollständigungsnetzwerk vor, das das RGB-Bild und die ungenaue Tiefenkarte als Eingabe verwendet und eine verfeinerte Tiefenkarte als Ausgabe erzeugt. Experimente demonstrieren die überlegene Effizienz, Effektivität und Robustheit unserer Methode im Vergleich zu früheren Arbeiten und zeigen, dass sie unter begrenzten Hardware-Ressourcen hochaufgelöste Bilder verarbeiten kann. Reale Robotik-Experimente belegen zudem, dass unsere Methode auch robust auf das Greifen neuer transparenter Objekte angewendet werden kann. Der vollständige Datensatz sowie unsere Methode sind öffentlich zugänglich unter www.graspnet.net/transcg.