HyperAIHyperAI
vor 9 Tagen

IMFNet: Interpretierbare multimodale Fusion für die Punktwolkenregistrierung

Xiaoshui Huang, Wentao Qu, Yifan Zuo, Yuming Fang, Xiaowei Zhao
IMFNet: Interpretierbare multimodale Fusion für die Punktwolkenregistrierung
Abstract

Die derzeitige State-of-the-Art-Punktdeskriptor-Methode beruht ausschließlich auf Strukturinformationen und lässt somit Textureinheiten unberücksichtigt. Für den Menschen sind jedoch Texturen entscheidend, um verschiedene Szenenbereiche zu unterscheiden. Darüber hinaus handelt es sich bei den derzeitigen lernbasierten Punktdeskriptoren alle um sogenannte „Black-Box“-Modelle, bei denen unklar ist, wie die ursprünglichen Punkte zur endgültigen Deskriptor-Generierung beitragen. In diesem Artikel stellen wir eine neue multimodale Fusionsmethode vor, um einen Deskriptor für die Punktclouddatenregistrierung zu erzeugen, indem sowohl Struktur- als auch Textureinheiten berücksichtigt werden. Konkret wird ein neuartiges Aufmerksamkeits-Fusionsmodul entworfen, das gewichtete Textureinheiten zur Deskriptorabstraktion extrahiert. Zudem schlagen wir ein interpretierbares Modul vor, das die Beiträge der ursprünglichen Punkte zum endgültigen Deskriptor erklären kann. Wir nutzen das Deskriptorelement als Verlustfunktion, um rückwärts durch das Netzwerk zu propagieren, und interpretieren den Gradienten als Maß für die Bedeutung eines Punktes für den finalen Deskriptor. Dieser Ansatz stellt einen weiteren Schritt hin zu erklärbaren tiefen Lernmethoden im Bereich der Registrierungsaufgabe dar. Umfassende Experimente auf den Datensätzen 3DMatch, 3DLoMatch und KITTI zeigen, dass der multimodale Fusions-Deskriptor die bisher beste Genauigkeit erreicht und die Unterscheidungsfähigkeit des Deskriptors signifikant verbessert. Zudem demonstrieren wir die Wirksamkeit unseres interpretierbaren Moduls bei der Erklärung des Prozesses der Deskriptorabstraktion.

IMFNet: Interpretierbare multimodale Fusion für die Punktwolkenregistrierung | Neueste Forschungsarbeiten | HyperAI