PieAPP: Perzeptive Bildfehlerbewertung durch paarweise Präferenz

Die Fähigkeit, den wahrnehmungsbasierten Fehler zwischen Bildern zu schätzen, ist ein wichtiges Problem in der Computer Vision mit zahlreichen Anwendungen. Trotz intensiver Forschung gibt es derzeit keine Methode, die visuelle Unterschiede wie Menschen robust vorhersagen kann. Einige frühere Ansätze nutzten handkodierte Modelle, aber diese scheitern daran, die Komplexität des menschlichen Sehsystems abzubilden. Andere verwendeten maschinelles Lernen, um Modelle auf von Menschen beschrifteten Datensätzen zu trainieren, jedoch ist die Erstellung großer, hochwertiger Datensätze schwierig, da Menschen unfähig sind, konsistente Fehleretiketten für verzerrte Bilder zu vergeben. In dieser Arbeit präsentieren wir eine neue lernbasierte Methode, die als erste visuelle Bildfehler wie menschliche Beobachter vorhersagt. Da es für Menschen viel einfacher ist, zwei gegebene Bilder miteinander zu vergleichen und dasjenige auszuwählen, das dem Referenzbild ähnlicher ist, als jeder einzelnen ein Qualitätsmerkmal zuzuweisen, schlagen wir einen neuen großen Datensatz vor, der mit der Wahrscheinlichkeit beschriftet ist, dass Menschen ein Bild dem anderen vorziehen. Wir trainieren dann ein tiefes Lernmodell unter Verwendung eines neuartigen paarweisen Lernrahmens zur Vorhersage der Präferenz eines verzerrten Bildes gegenüber einem anderen. Unser entscheidender Befund ist, dass unser trainiertes Netzwerk anschließend separat mit nur einem verzerrten Bild und einer Referenz verwendet werden kann, um dessen wahrnehmungsbasierten Fehler vorherzusagen – ohne jemals auf expliziten wahrnehmungsbasierten Fehleretiketten trainiert worden zu sein. Der durch unser neues Metrik PieAPP geschätzte wahrnehmungsbasierte Fehler korreliert gut mit menschlicher Meinung. Darüber hinaus übertrifft er bestehende Algorithmen erheblich und erreicht fast dreimal bessere Ergebnisse als der aktuelle Stand der Technik in Bezug auf die binäre Fehlerquote in unserem Testdatensatz; zudem verallgemeinert er sich auf neue Arten von Verzerrungen im Gegensatz zu früheren lernbasierten Methoden.