Deep Closest Point: Lernen von Repräsentationen für die Registrierung von Punktwolken

Die Registrierung von Punktwolken ist ein zentrales Problem für die Computer Vision, insbesondere in der Anwendung auf Robotik, medizinische Bildgebung und andere Bereiche. Dieses Problem besteht darin, eine starre Transformation von einer Punktwolke in eine andere zu finden, sodass sie sich ausrichten. Die Iterative Closest Point (ICP)-Methode und ihre Varianten bieten einfache und leicht umsetzbare iterative Verfahren für diese Aufgabe, können aber zu irreführenden lokalen Optima konvergieren. Um lokale Optima und andere Schwierigkeiten im ICP-Prozess zu bewältigen, schlagen wir eine lernbasierte Methode vor, die Deep Closest Point (DCP) genannt wird. Diese Methode ist inspiriert von aktuellen Techniken in der Computer Vision und der natürlichen Sprachverarbeitung. Unser Modell besteht aus drei Komponenten: einem Netzwerk zur Einbettung von Punktwolken, einem aufmerksamkeitsbasierten Modul kombiniert mit einer Zeigererzeugungsschicht, um kombinatorisches Matching zu approximieren, sowie einer differenzierbaren Singulärwertzerlegung (SVD)-Schicht zur Extraktion der endgültigen starren Transformation. Wir trainieren unser Modell end-to-end auf dem ModelNet40-Datensatz und zeigen in verschiedenen Szenarien, dass es besser als ICP, deren Varianten (z.B. Go-ICP, FGR) und die kürzlich vorgeschlagene lernbasierte Methode PointNetLK performt. Neben der Bereitstellung einer Stand-of-the-Art-Registrierungstechnik evaluieren wir auch die Eignung unserer gelernten Merkmale für die Übertragung auf unbekannte Objekte. Zudem liefern wir eine vorläufige Analyse unseres gelernten Modells, um zu verstehen, ob domänenspezifische und/oder globale Merkmale die starre Registrierung erleichtern.