HyperAIHyperAI
vor 12 Tagen

3D-Objekterkennung und Instanzsegmentierung aus 3D-Entfernungsbildern und 2D-Farbbildern

{Ioannis Stamos, Xiaoke Shen 1}
Abstract

Die Instanzsegmentierung und Objekterkennung stellen zentrale Herausforderungen in den Bereichen Computer Vision und Robotik dar. Wir adressieren diese Probleme durch die Einführung eines neuartigen Systems zur Objektsegmentierung und -erkennung. Zunächst erkennen wir 2D-Objekte basierend auf RGB-, Tiefen- oder RGB-D-Bildern. Dazu wird ein auf 3D-Konvolutionen basierendes System namens Frustum VoxNet vorgestellt. Dieses System generiert aus den Ergebnissen der 2D-Erkennung Frustums, schlägt für jeden Frustum 3D-Kandidatenvoxelbilder vor und nutzt ein 3D-Konvolutionales Neuronales Netzwerk (CNN), basierend auf diesen Kandidatenvoxelbildern, zur Durchführung der 3D-Instanzsegmentierung und Objekterkennung. Ergebnisse auf dem SUN RGB-D-Datensatz zeigen, dass unser auf RGB-D basierendes System eine deutlich schnellere 3D-Inferenz im Vergleich zu aktuellen State-of-the-Art-Methoden ermöglicht, ohne eine signifikante Genauigkeitsminderung zu verursachen. Gleichzeitig können wir Segmentierungs- und Erkennungsergebnisse auch mit Tiefenbildern allein liefern, wobei die Genauigkeit vergleichbar mit Systemen auf Basis von RGB-D ist. Dies ist von besonderer Bedeutung, da unsere Methode auch unter schlechten Beleuchtungsbedingungen oder mit Sensoren, die keine RGB-Bilder erfassen, gut funktioniert. Schließlich führt die Integration der Segmentierung in unseren Pipeline zur Verbesserung der Erkennungsgenauigkeit und ermöglicht gleichzeitig die 3D-Instanzsegmentierung.

3D-Objekterkennung und Instanzsegmentierung aus 3D-Entfernungsbildern und 2D-Farbbildern | Neueste Forschungsarbeiten | HyperAI