NIMA: Neuronale Bildbewertung

Die automatische Lernqualitätseinschätzung für Bilder ist aufgrund ihrer Nützlichkeit in einer Vielzahl von Anwendungen wie der Bewertung von Bildaufnahmepipelines, Speichermethoden und Teilen von Medien zu einem aktuellen Forschungsschwerpunkt geworden. Trotz der subjektiven Natur dieses Problems prognostizieren die meisten existierenden Methoden nur den durchschnittlichen Meinungswert, der in Datensätzen wie AVA [1] und TID2013 [2] bereitgestellt wird. Unser Ansatz unterscheidet sich von anderen dadurch, dass wir die Verteilung menschlicher Meinungswerte mit Hilfe eines Faltungsneuronalen Netzes (Convolutional Neural Network) vorhersagen. Unsere Architektur hat zudem den Vorteil, erheblich einfacher zu sein als andere Methoden mit vergleichbarer Leistungsfähigkeit. Unser vorgeschlagener Ansatz basiert auf dem Erfolg (und der Weiterbildung) bewährter, standortbestimmender tiefer Objekterkennungsnetze (state-of-the-art deep object recognition networks). Das resultierende Netzwerk kann nicht nur verwendet werden, um Bilder zuverlässig und mit hoher Korrelation zur menschlichen Wahrnehmung zu bewerten, sondern auch zur Unterstützung bei der Anpassung und Optimierung von Foto-Editier-/Verbesserungsalgorithmen in einem fotografischen Pipeline-Prozess. All dies geschieht ohne die Notwendigkeit eines "goldenen" Referenzbildes, was es ermöglicht, eine einbildige, semantisch- und wahrnehmungsbasierte Qualitätsbewertung ohne Referenz durchzuführen.