Lernen der absoluten Pose-Regression für mehrere Szenen mit Transformers

Absolute Camera-Pose-Regressoren schätzen die Position und Orientierung einer Kamera allein anhand des erfassten Bildes. Typischerweise wird ein konvolutionaler Backbone zusammen mit einem mehrschichtigen Perzeptron (MLP)-Kopf anhand von Bildern und Pose-Labels trainiert, um jeweils eine einzelne Referenzszene einzubetten. Kürzlich wurde dieses Verfahren erweitert, um mehrere Szenen zu lernen, indem der MLP-Kopf durch eine Menge vollständig verbundener Schichten ersetzt wurde. In dieser Arbeit schlagen wir vor, die Regressionsaufgabe für mehrere absolute Kameraposen mit Transformers zu lernen, wobei Encoder zur Aggregation von Aktivierungskarten mittels Selbst-Attention eingesetzt werden und Decoder die latente Merkmale sowie die Szenencodierung in Kandidaten-Pose-Vorhersagen transformieren. Diese Architektur ermöglicht es unserem Modell, sich auf allgemeine, für die Lokalisierung informative Merkmale zu konzentrieren, während gleichzeitig mehrere Szenen parallel eingebettet werden. Wir evaluieren unsere Methode anhand gängiger Benchmark-Datensätze für Innen- und Außenbereiche und zeigen, dass sie sowohl multi-scene- als auch state-of-the-art single-scene-Regresseure übertrifft. Den Quellcode stellen wir öffentlich unter https://github.com/yolish/multi-scene-pose-transformer zur Verfügung.