LoFTR: Lokale Merkmalsabgleichung ohne Detektoren mit Transformers

Wir präsentieren eine neuartige Methode für die lokale Bildmerkmalsabgleichung. Anstelle der sequenziellen Durchführung von Bildmerkmaldetektion, -beschreibung und -abgleichung schlagen wir vor, zunächst pixelweise dichte Abgleichungen auf einer groben Ebene herzustellen und diese später auf einer feinen Ebene zu verfeinern. Im Gegensatz zu dichten Methoden, die ein Kostenvolumen verwenden, um Korrespondenzen zu suchen, nutzen wir Selbst- und Kreuz-Aufmerksamkeitschichten (self and cross attention layers) in einem Transformer, um Merkmalsdeskriptoren zu erzeugen, die anhand beider Bilder konditioniert sind. Das globale Rezeptivfeld, das der Transformer bereitstellt, ermöglicht es unserer Methode, dichte Abgleichungen in Bereichen mit geringer Textur zu erzeugen, wo Merkmaldetektoren normalerweise Schwierigkeiten haben, wiederholbare Interessenspunkte zu produzieren. Experimente mit indoor- und outdoor-Datensätzen zeigen, dass LoFTR deutlich bessere Ergebnisse als state-of-the-art-Methoden erzielt. LoFTR rangiert zudem bei zwei öffentlichen Benchmarks für visuelle Lokalisierung unter den veröffentlichten Methoden auf dem ersten Platz.