
사진 미학 평가는 여전히 도전적인 과제이다. 최근 딥 컨볼루션 신경망(Deep ConvNet) 기법들이 미학 평가 분야에서 유망한 성과를 보여주고 있다. 그러나 이러한 딥 ConvNet 기법의 성능은 신경망이 고정된 크기의 입력만을 처리할 수 있다는 제약 때문에 종종 저하된다. 이 제약을 충족시키기 위해 입력 이미지는 자르기(cropping), 스케일링, 패딩 등의 변환을 거쳐야 하는데, 이러한 과정은 이미지 구성에 손상을 주거나 해상도를 낮추거나 왜곡을 유발하여 원본 이미지의 미학적 품질을 해칠 수 있다. 본 논문에서는 원본 이미지에 대한 변환 없이 직접 미학 특징을 학습하는 구 composition-preserving(구성 보존형) 딥 ConvNet 기법을 제안한다. 구체적으로, 정규 컨볼루션 및 풀링 계층 위에 적응형 공간 풀링(adaptive spatial pooling) 계층을 추가하여 원본 크기와 종횡비를 그대로 유지한 채 입력 이미지를 직접 처리할 수 있도록 한다. 또한 다중 스케일 특징 추출을 가능하게 하기 위해, 서로 다른 적응형 공간 풀링 크기를 갖는 다수의 하위 네트워크를 포함하는 Multi-Net Adaptive Spatial Pooling ConvNet 아키텍처를 개발하였으며, 시나리오 기반의 집계 계층(scene-based aggregation layer)을 활용하여 다수의 하위 네트워크에서 도출된 예측을 효과적으로 통합한다. 대규모 미학 평가 벤치마크인 AVA(Aesthetic Visual Analysis) 데이터셋을 대상으로 수행한 실험 결과, 제안하는 방법이 기존 최고 성능 기법에 비해 상당한 성능 향상을 달성함을 입증하였다.