Netzwerke zur gitterbasierten Mesh-Faltung

Convolutional Neural Networks (CNNs) haben bedeutende Durchbrüche in der 2D-Bildverarbeitung erzielt. Ihre irreguläre Struktur erschwert jedoch die direkte Anwendung auf Meshes. Eine Subdivisionsfläche bietet eine hierarchische Multiresolutionsstruktur, bei der jede Fläche in einem geschlossenen 2-dimensionalen triangulären Mesh genau drei benachbarte Flächen besitzt. Ausgehend von diesen beiden Beobachtungen präsentiert dieser Artikel SubdivNet, einen innovativen und vielseitigen CNN-Framework für 3D-Triangulär-Meshes mit Loop-Subdivisions-Sequenz-Verbindung. Durch die Analogie zwischen Mesh-Flächen und Pixeln in einem 2D-Bild wird ein Mesh-Faltungsoperator vorgestellt, der lokale Merkmale aus benachbarten Flächen aggregiert. Durch Ausnutzung der Nachbarschaftsbeziehungen zwischen Flächen kann diese Faltung Standardkonzepte von 2D-Faltungsnetzwerken unterstützen, beispielsweise variable Kernelgröße, Schrittweite und Dilatation. Aufbauend auf der Multiresolutionshierarchie werden Pooling-Layer eingesetzt, die vier Flächen gleichmäßig zu einer zusammenfassen, sowie eine Aufsampling-Methode, die eine Fläche in vier aufteilt. Dadurch können viele gängige 2D-CNN-Architekturen leicht an die Verarbeitung von 3D-Meshes angepasst werden. Meshes mit beliebiger Verbindung können mittels Selbst-Parameterisierung so remeshed werden, dass sie die Loop-Subdivisions-Sequenz-Verbindung aufweisen, wodurch SubdivNet zu einem allgemeinen Ansatz wird. Umfangreiche Evaluationen und vielfältige Anwendungen belegen die Wirksamkeit und Effizienz von SubdivNet.