Implizites 3D-Orientierungslernen für die 6D-Objekterkennung aus RGB-Bildern

Wir schlagen einen Echtzeit-RGB-basierten Prozess für die Objekterkennung und 6D-Pose-Schätzung vor. Unsere neuartige 3D-Orientierungsschätzung basiert auf einer Variante des Denoising Autoencoders, der mit simulierten Ansichten eines 3D-Modells unter Verwendung von Domain Randomization trainiert wird. Dieser sogenannte erweiterte Autoencoder (Augmented Autoencoder) hat gegenüber bestehenden Methoden mehrere Vorteile: Er benötigt keine realen, pose-annotierten Trainingsdaten, verallgemeinert sich auf verschiedene Test-Sensoren und beherrscht objekt- und ansichtsbedingte Symmetrien. Anstatt eine explizite Abbildung von Eingabebildern zu Objekt-Posen zu lernen, bietet er eine implizite Darstellung der Objekt-Orientierungen, die durch Stichproben im latenten Raum definiert ist. Unser Prozess erreicht den Stand der Technik auf dem T-LESS-Datensatz sowohl im RGB- als auch im RGB-D-Bereich. Wir evaluieren außerdem den Prozess am LineMOD-Datensatz, wo wir mit anderen synthetisch trainierten Ansätzen konkurrieren können. Durch die Korrektur der 3D-Orientierungsschätzungen zur Berücksichtigung perspektivischer Fehler bei Abweichungen des Objekts vom Bildzentrum verbessern wir die Leistung weiter und zeigen erweiterte Ergebnisse.