Gemeinsamer Kopplungsbrücke für das schwach überwachte Lernen lokaler Merkmale

Die dünnbesetzte lokale Merkmalsextraktion wird in typischen Visionssystemen wie simultaner Lokalisierung und Kartierung, Bildvergleich und 3D-Rekonstruktion üblicherweise als von großer Bedeutung angesehen. Derzeit weist sie jedoch noch einige Mängel auf, die weiter verbessert werden müssen, insbesondere die Diskriminierkraft der extrahierten lokalen Deskriptoren, die Ortsbestimmungsgenauigkeit der detektierten Keypoints sowie die Effizienz des Lernens lokaler Merkmale. Diese Arbeit konzentriert sich darauf, das aktuell weit verbreitete Lernen dünnbesetzter lokaler Merkmale durch Kameralagenüberwachung zu fördern. Hierfür schlägt sie ein geteiltes Kopplungsbrücken-Schema mit vier leichten, aber effektiven Verbesserungen für das schwach überwachte lokale Merkmalslernen (SCFeat) vor. Es umfasst insbesondere: i) das \emph{Feature-Fusion-ResUNet-Backbone} (F2R-Backbone) zum Lernen lokaler Deskriptoren, ii) eine geteilte Kopplungsbrückennormalisierung zur Verbesserung des entkoppelten Trainings von Beschreibungsnetzwerk und Detektionsnetzwerk, iii) ein verbessertes Detektionsnetzwerk mit Peakmessung zur Detektion von Keypoints und iv) den Fundamentalmatrixfehler als Belohnungsfaktor zur weiteren Optimierung des Trainings der Merkmaldetektion. Umfangreiche Experimente zeigen, dass unsere SCFeat-Verbesserungen wirksam sind. Sie erzielen oft einen Stand-der-Kunst-Leistung bei klassischem Bildvergleich und visueller Lokalisierung. In Bezug auf 3D-Rekonstruktion können sie dennoch wettbewerbsfähige Ergebnisse erzielen. Für Teilebereitschaft und Kommunikation sind unsere Quellcodes unter https://github.com/sunjiayuanro/SCFeat.git verfügbar.