HyperAIHyperAI
vor 17 Tagen

Zusammensetzungserhaltende tiefe Bewertung der fotografischen Ästhetik

{Long Mai, Hailin Jin, Feng Liu}
Zusammensetzungserhaltende tiefe Bewertung der fotografischen Ästhetik
Abstract

Die Beurteilung der Fotokunstqualität ist herausfordernd. Kürzlich haben tiefgreifende konvolutionelle neuronale Netzwerke (ConvNet) vielversprechende Ergebnisse bei der Bewertung der Ästhetik von Fotos gezeigt. Die Leistung dieser tiefen ConvNet-Methoden wird jedoch häufig durch die Beschränkung beeinträchtigt, dass das neuronale Netzwerk nur Eingabebilder mit fester Größe verarbeiten kann. Um dieser Anforderung gerecht zu werden, müssen Eingabebilder durch Beschneiden, Skalieren oder Auffüllen transformiert werden, was häufig die Bildkomposition beeinträchtigt, die Bildauflösung verringert oder Verzerrungen verursacht und somit die Ästhetik der ursprünglichen Bilder beeinträchtigt. In diesem Paper präsentieren wir eine kompositionsbehaltende tiefgreifende ConvNet-Methode, die direkt Ästhetikmerkmale aus den ursprünglichen Eingabebildern ohne jegliche Bildtransformationen lernt. Insbesondere fügen wir eine adaptive räumliche Pooling-Schicht über die regulären Konvolution- und Pooling-Schichten hinzu, um Eingabebilder mit ursprünglichen Abmessungen und Seitenverhältnissen direkt zu verarbeiten. Um eine mehrskalige Merkmalsextraktion zu ermöglichen, entwickeln wir die Multi-Net Adaptive Spatial Pooling ConvNet-Architektur, die aus mehreren Teilnetzwerken mit unterschiedlichen adaptiven räumlichen Pooling-Größen besteht, und nutzen eine szenenbasierte Aggregationsschicht, um die Vorhersagen der verschiedenen Teilnetzwerke effektiv zu kombinieren. Unsere Experimente auf der großen Benchmark-Datenbank für Fotokunstqualitätsbewertung (AVA) zeigen, dass unsere Methode die derzeitigen Spitzenresultate in der Beurteilung der Fotokunstqualität erheblich verbessern kann.