Zu einer interpretierbaren tiefen metrischen Lernmethode mit struktureller Übereinstimmung

Wie unterscheiden neuronale Netze zwei Bilder voneinander? Es ist von entscheidender Bedeutung, den Übereinstimmungsmechanismus tiefer Modelle zu verstehen, um zuverlässige intelligente Systeme für riskante visuelle Anwendungen wie Überwachung und Zugriffskontrolle zu entwickeln. Die meisten bestehenden Methoden des tiefen metrischen Lernens vergleichen Bilder jedoch durch den Abstand von Merkmalsvektoren, wodurch die räumliche Struktur der Bilder vernachlässigt wird und die Interpretierbarkeit leidet. In diesem Artikel stellen wir eine tiefe, interpretierbare metrische Lernmethode (DIML) vor, die eine transparentere Einbettungslernung ermöglicht. Im Gegensatz zu herkömmlichen metrischen Lernmethoden, die auf dem Vergleich von Merkmalsvektoren basieren, schlagen wir eine strukturelle Übereinstimmungsstrategie vor, die die räumlichen Einbettungen explizit durch die Berechnung eines optimalen Übereinstimmungsflusses zwischen den Merkmalskarten der beiden Bilder ausrichtet. Unser Ansatz ermöglicht es tiefen Modellen, Metriken auf eine menschenfreundlichere Weise zu lernen, bei der die Ähnlichkeit zweier Bilder in mehrere teilspezifische Ähnlichkeiten und deren Beiträge zur Gesamtähnlichkeit zerlegt werden kann. Unser Verfahren ist modellunabhängig und kann problemlos auf kommerziell verfügbare Backbone-Netzwerke sowie bestehende metrische Lernmethoden angewendet werden. Wir evaluieren unsere Methode an drei zentralen Benchmarks des tiefen metrischen Lernens – CUB200-2011, Cars196 und Stanford Online Products – und erzielen signifikante Verbesserungen gegenüber gängigen metrischen Lernmethoden mit einer besseren Interpretierbarkeit. Der Quellcode ist unter https://github.com/wl-zhao/DIML verfügbar.