End-to-End-Lernen lokaler Multi-View-Deskriptoren für 3D-Punktwolken

In dieser Arbeit stellen wir einen end-to-end-Framework zur Lernung lokaler Multi-View-Deskriptoren für 3D-Punktwolken vor. Um eine ähnliche Multi-View-Darstellung zu nutzen, verwenden bestehende Ansätze handgefertigte Ansichtspunkte für die Rendernierung in einer Vorverarbeitungsphase, die von der anschließenden Deskriptor-Lernphase entkoppelt ist. In unserem Framework integrieren wir die Multi-View-Rendernierung direkt in neuronale Netzwerke mithilfe eines differenzierbaren Renderers, wodurch die Ansichtspunkte als optimierbare Parameter dienen können, um informativere lokale Kontexte interessanter Punkte zu erfassen. Um diskriminative Deskriptoren zu erzielen, haben wir zudem ein Soft-View-Pooling-Modul entworfen, das konvolutionale Merkmale über verschiedene Ansichten aufmerksam fusioniert. Umfangreiche Experimente auf etablierten Benchmarks für 3D-Registrierung zeigen, dass unsere Methode sowohl quantitativ als auch qualitativ gegenüber bestehenden lokalen Deskriptoren übertrifft.