Tiefes Kontrastives Lernen für die Erkennung von auffälligen Objekten

Die Erkennung von auffälligen Objekten hat in letzter Zeit dank leistungsfähiger Merkmale, die mit tiefen Faltungsnetzen (CNNs) extrahiert werden, erhebliche Fortschritte gemacht. Bestehende CNN-basierte Methoden arbeiten jedoch auf Patch-Ebene anstatt auf Pixel-Ebene. Die daraus resultierenden Salienzkarten sind oft unscharf, insbesondere in der Nähe der Ränder auffälliger Objekte. Darüber hinaus werden Bild-Patches als unabhängige Stichproben behandelt, selbst wenn sie sich überlappen, was zu erheblicher Redundanz bei der Berechnung und Speicherung führt. In diesem CVPR 2016-Papier schlagen wir ein end-to-end tiefes Kontrastnetzwerk vor, um die genannten Einschränkungen zu überwinden. Unser tiefes Netzwerk besteht aus zwei ergänzenden Komponenten: einem pixelbasierten vollständig faltenden Strom und einem segmentweisen räumlichen Pooling-Strom. Der erste Strom erzeugt direkt eine Salienzkarte mit pixelbasierter Genauigkeit aus einem Eingangsbild. Der zweite Strom extrahiert segmentweise Merkmale sehr effizient und modelliert Salienzunterbrechungen entlang von Objekträndern besser. Schließlich kann ein vollständig vernetztes CRF-Modell optional integriert werden, um die räumliche Kohärenz und Konturlokalisierung im fusionierten Ergebnis dieser beiden Ströme zu verbessern. Experimentelle Ergebnisse zeigen, dass unser tiefes Modell den Stand der Technik erheblich verbessert.