Die unerwartete Effektivität von tiefen Merkmalen als perceptuelle Metrik

Während es für Menschen fast mühelos ist, die wahrgenommene Ähnlichkeit zwischen zwei Bildern schnell einzuschätzen, werden die zugrunde liegenden Prozesse als äußerst komplex angesehen. Trotzdem sind die am häufigsten verwendeten Perzeptionsmetriken wie PSNR und SSIM einfache, flache Funktionen und berücksichtigen viele Feinheiten der menschlichen Wahrnehmung nicht. Kürzlich hat die Deep-Learning-Gemeinschaft festgestellt, dass Merkmale des auf ImageNet-Klassifikation trainierten VGG-Netzes sich als außerordentlich nützlich erwiesen haben, um als Trainingsverlust für Bildsynthese zu dienen. Aber wie perzeptiv sind diese sogenannten "Perzeptionsverluste" (perceptual losses)? Welche Elemente sind für ihren Erfolg entscheidend? Um diese Fragen zu beantworten, stellen wir einen neuen Datensatz von menschlichen Perzeptionsähnlichkeitsurteilen vor. Wir evaluieren systematisch tiefere Merkmale über verschiedene Architekturen und Aufgaben hinweg und vergleichen sie mit klassischen Metriken. Wir finden heraus, dass tiefere Merkmale in unserem Datensatz alle früheren Metriken um ein großes Maß übertreffen. Überraschenderweise gilt dieses Ergebnis nicht nur für auf ImageNet trainierte VGG-Merkmale, sondern auch über verschiedene tiefe Architekturen und Supervisionsgrade (überwacht, selbstüberwacht oder sogar unüberwacht). Unsere Ergebnisse deuten darauf hin, dass Perzeptionssimilarität eine emergente Eigenschaft ist, die verschiedenen tiefen visuellen Repräsentationen gemeinsam ist.