IF-Net: Ein illuminiationsunabhängiges Merkmalsnetzwerk

Die Übereinstimmung von Merkmalbeschreibern ist ein entscheidender Schritt in vielen Anwendungen der Computer Vision, wie beispielsweise Bildstitching, Bildretrieval und visuelle Lokalisierung. Sie wird jedoch häufig durch verschiedene praktische Faktoren beeinträchtigt, die ihre Leistungsfähigkeit verringern. Unter diesen Faktoren sind Helligkeitsvariationen der einflussreichste, und bisher haben keine vorherigen Arbeiten zur Lernung von Beschreibern dieses Problem adressiert. In diesem Artikel stellen wir IF-Net vor, ein Ansatz, der darauf abzielt, unter extremen Helligkeitsänderungen robuste und allgemeingültige Beschreiber zu generieren. Wir stellen fest, dass nicht nur die Art der Trainingsdaten, sondern auch die Reihenfolge ihrer Präsentation entscheidend ist. Um dies zu erforschen, untersuchen wir mehrere Scheduling-Methoden für Datensätze und schlagen ein getrenntes Trainingsverfahren vor, um die Übereinstimmungsgenauigkeit zu verbessern. Darüber hinaus führen wir eine ROI-Verlustfunktion sowie eine Strategie zur Auswahl von schweren positiven Beispielen (hard-positive mining) in Kombination mit dem Trainingsverfahren ein, die die Fähigkeit des generierten Beschreibers zur Bewältigung großer Helligkeitsunterschiede stärkt. Wir evaluieren unseren Ansatz auf einem öffentlichen Benchmark für Patch-Übereinstimmung und erzielen die besten Ergebnisse im Vergleich zu mehreren state-of-the-art-Methoden. Um die praktische Relevanz zu demonstrieren, testen wir IF-Net zudem auf der Aufgabe der visuellen Lokalisierung unter Szenen mit starken Helligkeitsänderungen und erreichen dabei die höchste Lokalisierungsgenauigkeit.