HyperAIHyperAI
vor 2 Monaten

MVTN: Multi-View-Transformation-Netzwerk für die 3D-Formerkennung

Hamdi, Abdullah ; Giancola, Silvio ; Ghanem, Bernard
MVTN: Multi-View-Transformation-Netzwerk für die 3D-Formerkennung
Abstract

Mehrfachansichts-Projektionsmethoden haben ihre Fähigkeit bewiesen, den aktuellen Stand der Technik bei der 3D-Formerkennung zu erreichen. Diese Methoden lernen verschiedene Wege, Informationen aus mehreren Ansichten zusammenzufassen. Allerdings werden die Kameraperspektiven für diese Ansichten in der Regel heuristisch festgelegt und für alle Formen unverändert gelassen. Um den Mangel an Dynamik der gegenwärtigen Mehrfachansichtsmethoden zu umgehen, schlagen wir vor, diese Perspektiven zu lernen. Insbesondere führen wir das Multi-View Transformation Network (MVTN) ein, das optimale Kameraperspektiven für die 3D-Formerkennung regressiert, wobei es auf Fortschritten im differenzierbaren Rendering basiert. Als Ergebnis kann MVTN zusammen mit jedem Mehrfachansichtsnetzwerk für die 3D-Formklassifizierung von Anfang bis Ende trainiert werden. Wir integrieren MVTN in einen neuen adaptiven Mehrfachansichtspipeline, der entweder 3D-Gitter oder Punktwolken rendern kann. MVTN zeigt deutliche Leistungsverbesserungen bei den Aufgaben der 3D-Formklassifizierung und -suche, ohne zusätzliche Trainingsüberwachung zu benötigen. Bei diesen Aufgaben erreicht MVTN den aktuellen Stand der Technik auf ModelNet40, ShapeNet Core55 und dem neuesten und realistischsten ScanObjectNN-Datensatz (bis zu 6 % Verbesserung). Interessanterweise zeigen wir auch, dass MVTN Robustheit des Netzes gegen Drehungen und Verdeckungen im 3D-Bereich bieten kann. Der Code ist unter https://github.com/ajhamdi/MVTN verfügbar.

MVTN: Multi-View-Transformation-Netzwerk für die 3D-Formerkennung | Neueste Forschungsarbeiten | HyperAI