Orientierte Gradientenwolken für die 3D-Erkennung von Objekten, Flächen und Indoor-Szenenlayout

Wir entwickeln neue Darstellungen und Algorithmen für die dreidimensionale (3D) Objekterkennung und die Vorhersage des räumlichen Layouts in unordentlichen Innenräumen. Zunächst schlagen wir einen "Clouds of Oriented Gradient" (COG)-Deskriptor vor, der das zweidimensionale (2D) Erscheinungsbild und die dreidimensionale (3D) Pose von Objektkategorien verbindet und somit präzise modelliert, wie perspektivische Projektion die wahrgenommenen Bildgradienten beeinflusst. Um das 3D-Visuelle von großen Objekten besser darzustellen und kontextuelle Hinweise zu liefern, um die Erkennung kleiner Objekte zu verbessern, führen wir latente Tragflächen ein. Anschließend schlagen wir eine "Manhattan-Voxel"-Darstellung vor, die die 3D-Raumlayout-Geometrie von üblichen Innenräumen besser erfasst. Effektive Klassifikationsregeln werden durch ein Framework der latenten strukturierten Vorhersage gelernt. Kontextuelle Beziehungen zwischen Kategorien und Layout werden durch eine Kaskade von Klassifizierern erfasst, was zu umfassenden Szenenhypothesen führt, die den Stand der Technik in der SUN RGB-D-Datenbank übertrumpfen.