HyperAIHyperAI
vor 2 Monaten

Reichhaltige Merkmale aus RGB-D-Bildern für die Objekterkennung und -segmentierung lernen

Saurabh Gupta; Ross Girshick; Pablo Arbeláez; Jitendra Malik
Reichhaltige Merkmale aus RGB-D-Bildern für die Objekterkennung und -segmentierung lernen
Abstract

In dieser Arbeit untersuchen wir das Problem der Objekterkennung für RGB-D-Bilder unter Verwendung semantisch reicher Bild- und Tiefenmerkmale. Wir schlagen eine neue geozentrische Einbettung für Tiefenbilder vor, die neben der horizontalen Disparität die Höhe über dem Boden und den Winkel zur Schwerkraft für jedes Pixel kodiert. Wir zeigen, dass diese geozentrische Einbettung besser funktioniert als rohe Tiefenbilder bei der Lernrepräsentation von Merkmalen mit Faltungsneuralnetzen (Convolutional Neural Networks). Unser endgültiges Objekterkennungssystem erreicht eine durchschnittliche Präzision von 37,3 %, was eine relative Verbesserung von 56 % gegenüber bestehenden Methoden darstellt. Anschließend konzentrieren wir uns auf die Aufgabe der Instanzsegmentierung, bei der wir Pixel zu den durch unseren Detektor gefundenen Objektinstanzen zuordnen. Für diese Aufgabe schlagen wir einen Entscheidungswaldansatz (decision forest approach) vor, der Pixel im Erkennungsfenster mithilfe einer Reihe unärer und binärer Tests klassifiziert, die Form- und geozentrische Pose-Merkmale abfragen. Schließlich nutzen wir die Ausgabe unserer Objektdetektoren in einem existierenden Superpixel-Klassifikationsrahmen für die semantische Szene-Segmentierung und erzielen eine relative Verbesserung von 24 % im Vergleich zum aktuellen Stand der Technik für die untersuchten Objektkategorien. Wir glauben, dass Fortschritte wie jene in dieser Arbeit die Nutzung von Wahrnehmungstechnologien in Bereichen wie Robotik erleichtern werden.

Reichhaltige Merkmale aus RGB-D-Bildern für die Objekterkennung und -segmentierung lernen | Neueste Forschungsarbeiten | HyperAI