Command Palette
Search for a command to run...
Multi-View-Konvolutionale Neuronale Netze für die 3D-Formerkennung
Multi-View-Konvolutionale Neuronale Netze für die 3D-Formerkennung
Su Hang Maji Subhransu Kalogerakis Evangelos Learned-Miller Erik
Zusammenfassung
Ein lang bestehendes Problem der Computer Vision befasst sich mit der Darstellung dreidimensionaler (3D) Formen für die Erkennung: Sollten 3D-Formen mittels Deskriptoren dargestellt werden, die auf ihren nativen 3D-Formaten wie Voxel-Gittern oder Polygonnetzen operieren, oder können sie ebenso effektiv mittels sichtbasierten Deskriptoren repräsentiert werden? Wir untersuchen diese Frage im Kontext des Lernens zur Erkennung von 3D-Formen anhand einer Sammlung ihrer gerenderten Ansichten in 2D-Bildern. Zunächst stellen wir eine herkömmliche CNN-Architektur vor, die unabhängig voneinander auf die erkannten Ansichten der Formen trainiert wurde, und zeigen, dass eine 3D-Form bereits aus einer einzigen Ansicht mit einer Genauigkeit erkannt werden kann, die weit über der von aktuellen State-of-the-Art-3D-Form-Deskriptoren liegt. Die Erkennungsgenauigkeit steigt weiter an, wenn mehrere Ansichten derselben Form bereitgestellt werden. Darüber hinaus präsentieren wir eine neuartige CNN-Architektur, die Informationen aus mehreren Ansichten einer 3D-Form zu einem einzigen, kompakten Form-Deskriptor kombiniert und somit eine noch bessere Erkennungsleistung ermöglicht. Die gleiche Architektur lässt sich zudem zur präzisen Erkennung menschlicher, handgezeichneter Skizzen von Formen einsetzen. Wir schließen daraus, dass eine Sammlung von 2D-Ansichten hoch informativ für die Erkennung von 3D-Formen ist und gut mit modernen CNN-Architekturen sowie deren Ableitungen vereinbar ist.