H3DNet: 3D-Objekterkennung mithilfe hybrider geometrischer Primitiven

Wir stellen H3DNet vor, das als Eingabe einen farblosen 3D-Punktwolken-Datensatz erhält und eine Sammlung aus orientierten objektbezogenen Bounding Boxes (BB) sowie deren semantische Bezeichnungen ausgibt. Der entscheidende Ansatz von H3DNet besteht darin, eine hybride Menge geometrischer Primitive vorherzusagen, nämlich BB-Zentren, BB-Face-Zentren und BB-Kanten-Zentren. Wir zeigen, wie sich die vorhergesagten geometrischen Primitive durch die Definition einer Distanzfunktion zwischen einem Objekt und den geometrischen Primitiven in Objektvorschläge umwandeln lassen. Diese Distanzfunktion ermöglicht die kontinuierliche Optimierung von Objektvorschlägen, wobei ihre lokalen Minima hochgenaue Objektvorschläge liefern. Anschließend nutzt H3DNet ein Matching- und Verfeinerungsmodul, um die Objektvorschläge in erkannte Objekte zu klassifizieren und die geometrischen Parameter der erkannten Objekte feinabzustimmen. Die hybride Menge geometrischer Primitiven liefert nicht nur präzisere Signale für die Objekterkennung als die Verwendung einer einzigen Art geometrischer Primitiven, sondern bietet zudem ein überbestimmtes System von Einschränkungen für die resultierende 3D-Layoutstruktur. Dadurch ist H3DNet in der Lage, Ausreißer in den vorhergesagten geometrischen Primitiven zu tolerieren. Unser Modell erreicht state-of-the-art-Ergebnisse bei der 3D-Objekterkennung auf zwei großen Datensätzen mit echten 3D-Scans, nämlich ScanNet und SUN RGB-D.