Lernen Convnets Korrespondenz?

Faltungsneuronale Netze (ConvNets), die auf umfangreichen annotierten Datensätzen trainiert wurden, haben den Stand der Technik in der Bildklassifizierung und Objekterkennung erheblich verbessert. Dennoch erfordert visuelles Verständnis eine Korrespondenz auf einer feineren Ebene als der Objektkategorie. Angesichts ihrer großen Pooling-Bereiche und des Trainings mit Labels für ganze Bilder ist unklar, ob ConvNets ihren Erfolg aus einem genauen Korrespondenzmodell ableiten, das für präzise Lokalisierung verwendet werden könnte. In dieser Arbeit untersuchen wir die Effektivität von Aktivationsmerkmalen von ConvNets für Aufgaben, die eine Korrespondenz erfordern. Wir präsentieren Beweise dafür, dass ConvNet-Merkmale sich auf einer viel feineren Skala lokalisieren als ihre Rezeptorfeldgrößen es vermuten lassen, dass sie zur Durchführung von innerklassischen Ausrichtungen ebenso wie konventionelle handgefertigte Merkmale verwendet werden können und dass sie konventionelle Merkmale bei der Keypoint-Vorhersage für Objekte aus dem PASCAL VOC 2011-Datensatz übertrumpfen.