HyperAIHyperAI
vor 2 Monaten

3D AffordanceNet: Eine Benchmark für die visuelle Objekt-Affordanzerkennung

Deng, Shengheng ; Xu, Xun ; Wu, Chaozheng ; Chen, Ke ; Jia, Kui
3D AffordanceNet: Eine Benchmark für die visuelle Objekt-Affordanzerkennung
Abstract

Die Fähigkeit, Wege zu verstehen, wie Objekte durch visuelle Hinweise interagiert werden können, auch bekannt als visuelle Affordanzen, ist für die Forschung im Bereich der visionsgesteuerten Robotik essentiell. Dies beinhaltet die Kategorisierung, Segmentierung und Schlussfolgerung von visuellen Affordanzen. Bisher wurden relevante Studien in den Bereichen 2D- und 2,5D-Bilder durchgeführt; jedoch erfordert ein funktional vollständiges Verständnis von Objekt-Affordanzen das Lernen und Vorhersagen im 3D-physischen Bereich, was in der Gemeinschaft noch fehlt. In dieser Arbeit stellen wir den 3D AffordanceNet-Datensatz vor, eine Benchmark mit 23.000 Formen aus 23 semantischen Objektkategorien, die mit 18 Kategorien visueller Affordanzen annotiert sind. Auf Basis dieses Datensatzes bieten wir drei Benchmark-Tasks zur Bewertung des Verständnisses visueller Affordanzen an, darunter die Schätzung von vollständigen Formen, teilweisen Ansichten und rotationsinvarianten Affordanzen. Drei state-of-the-art Tiefenlernnetze für Punktwolken werden auf allen Tasks evaluiert. Darüber hinaus untersuchen wir auch eine semi-überwachte Lernstruktur, um die Möglichkeit zu erforschen, von nicht gekennzeichneten Daten zu profitieren. Umfassende Ergebnisse auf unserem beigetragenen Datensatz zeigen das Potenzial des Verständnisses visueller Affordanzen als wertvolles aber herausforderndes Benchmarking-Instrument.