Blindes Bildqualitätsbewertung mit einem tiefen bilinearen Faltungsneuralen Netzwerk

Wir schlagen ein tiefes bilineares Modell für die blinde Bildqualitätseinschätzung (BIQA) vor, das sowohl synthetische als auch authentische Verzerrungen behandelt. Unser Modell besteht aus zwei Faltungsneuronalen Netzen (CNN), von denen jedes auf eine bestimmte Verzerrungssituation spezialisiert ist. Für synthetische Verzerrungen trainieren wir ein CNN vorgängig zur Klassifizierung des Bildverzerrungstyps und -grades, wobei wir von umfangreichen Trainingsdaten profitieren. Für authentische Verzerrungen verwenden wir ein vorgefertigtes CNN zur Bildklassifizierung. Die Merkmale der beiden CNNs werden bilinear in eine einheitliche Darstellung zusammengefasst, um die endgültige Qualitätsvorhersage zu treffen. Anschließend feinjustieren wir das gesamte Modell an den Ziel-Datenbanken mit subjektiven Bewertungen unter Verwendung einer Variante des stochastischen Gradientenabstiegs. Ausführliche Experimente zeigen, dass das vorgeschlagene Modell in beiden Bereichen – synthetische und authentische Datenbanken – überlegene Leistung erzielt. Des Weiteren verifizieren wir die Übertragbarkeit unserer Methode anhand der Waterloo Exploration Database mittels des Gruppen-Maximum-Differenzierungs-Wettbewerbs.