R2D2: Zuverlässiger und wiederholbarer Detektor und Beschreiber

Die Detektion von Interessenspunkten und die lokale Beschreibung von Merkmalen sind grundlegende Schritte in vielen Anwendungen der Computer Vision. Traditionelle Ansätze basieren auf dem „Detect-then-Describe“-Paradigma, bei dem getrennte, handgebaute Methoden verwendet werden, um zunächst wiederholbare Keypoints zu identifizieren und diese anschließend mit einer lokalen Beschreibung zu repräsentieren. Kürzlich haben neuronale Netzwerke, die mit Metrik-Lernverlusten trainiert wurden, diese Techniken eingeholt, wobei der Fokus auf der Lernung wiederholbarer Aufmerksamkeitskarten für die Keypoint-Detektion oder auf der Lernung von Beschreibern an bereits detektierten Keypoint-Positionen liegt. In dieser Arbeit argumentieren wir, dass wiederholbare Regionen nicht notwendigerweise diskriminativ sind und daher zu der Auswahl suboptimaler Keypoints führen können. Zudem behaupten wir, dass Beschreiber nur in Regionen gelernt werden sollten, in denen eine Zuordnung mit hoher Zuverlässigkeit möglich ist.Daher schlagen wir vor, die Keypoint-Detektion und -Beschreibung gemeinsam mit einem Vorhersage-Modell für die Diskriminativität der lokalen Beschreiber zu lernen. Dies ermöglicht es, mehrdeutige Bereiche zu vermeiden und führt somit zu zuverlässigeren Keypoint-Detektion und -Beschreibung. Unser Ansatz zur gleichzeitigen Detektion und Beschreibung liefert gleichzeitig spärliche, wiederholbare und zuverlässige Keypoints, die die Leistungszahlen aktueller State-of-the-Art-Detektoren und -Beschreiber auf dem HPatches-Datensatz sowie auf der jüngsten Aachen Day-Night-Localisierungs-Benchmark übertrifft.