REGTR: End-to-end Punktewolkenentsprechungen mit Transformers

Trotz der jüngsten Erfolge bei der Integration von Lernverfahren in die Registrierung von Punktwolken konzentrieren sich viele Ansätze auf das Lernen von Merkmalsbeschreibern und setzen weiterhin auf die Nachbarschaftsabgleichung basierend auf den nächsten Nachbarn sowie auf Outlier-Filterung mittels RANSAC, um die endgültigen Korrespondenzen für die Pose-Schätzung zu erhalten. In dieser Arbeit vermuten wir, dass Aufmerksamkeitsmechanismen die Rolle der expliziten Merkmalsabgleichung und RANSAC übernehmen können, und schlagen daher einen end-to-end-Framework vor, der direkt die endgültige Menge an Korrespondenzen vorhersagt. Wir verwenden eine Netzarchitektur, die hauptsächlich aus Transformer-Schichten mit selbst- und kreuzweiser Aufmerksamkeit besteht, und trainieren sie, die Wahrscheinlichkeit vorherzusagen, dass ein Punkt im Überlappungsbereich liegt, sowie die entsprechende Position in der anderen Punktwolke. Die erforderliche starre Transformation kann dann direkt aus den vorhergesagten Korrespondenzen ohne weitere Nachverarbeitung geschätzt werden. Trotz seiner Einfachheit erreicht unser Ansatz eine state-of-the-art-Leistung auf den Benchmarks 3DMatch und ModelNet. Der Quellcode ist unter https://github.com/yewzijian/RegTR verfügbar.