Diskriminative Lernung tiefer konvolutioneller Merkmalpunkt-Deskriptoren

Das Deep Learning hat die Bildklassifizierung revolutioniert, doch für patchbasierte Aufgaben wie die Korrespondenz werden weiterhin handgefertigte Merkmale wie SIFT eingesetzt. In diesem Paper nutzen wir Faltungsneuronale Netze (CNNs), um differenzierende Patch-Repräsentationen zu lernen, und trainieren insbesondere ein Siamese-Netzwerk mit Paaren von (nicht-)korrespondierenden Patchen. Um mit der großen Anzahl möglicher Paare umzugehen, kombinieren wir eine stochastische Stichprobenauswahl aus dem Trainingsdatensatz mit einer aggressiven Miningstrategie, die sich auf schwierig zu klassifizierende Patchen konzentriert. Durch die Verwendung der L2-Distanz sowohl während des Trainings als auch während der Testphase entwickeln wir 128-dimensionale Deskriptoren, deren euklidische Distanzen die Patch-Ähnlichkeit widerspiegeln und die als direkte Ersatzkomponente für beliebige Aufgaben, die SIFT verwenden, eingesetzt werden können. Wir zeigen konsistente Leistungsverbesserungen gegenüber dem Stand der Technik und eine gute Verallgemeinerungsfähigkeit gegenüber Skalierung und Rotation, perspektivischen Transformationen, nicht-rigidem Deformation und Lichtverhältnissen. Unsere Deskriptoren sind effizient berechenbar und gut für moderne GPUs geeignet und sind öffentlich verfügbar.