
要約
写真の美的評価は困難な課題である。近年、深層畳み込みニューラルネットワーク(ConvNet)手法が美的評価において有望な成果を上げている。しかしながら、これらの深層ConvNet手法の性能は、ニューラルネットワークが固定サイズの入力しか受け付けないという制約によってしばしば損なわれる。この制約に対応するため、入力画像に対して切り取り(cropping)、スケーリング、パディングなどの変換が必要となるが、これらは画像の構図を損なったり、解像度を低下させたり、歪みを引き起こしたりするため、元の画像の美的価値を低下させる要因となる。本論文では、入力画像の変換を一切行わずに、元の画像サイズおよびアスペクト比を保持したまま美的特徴を直接学習する「構図保持型深層ConvNet手法」を提案する。具体的には、通常の畳み込み層およびプーリング層の上に、入力画像のオリジナルサイズとアスペクト比を直接処理可能な「適応的空間プーリング層(adaptive spatial pooling layer)」を追加している。マルチスケール特徴抽出を可能とするために、異なる適応的空間プーリングサイズを持つ複数のサブネットワークを備えた「Multi-Net Adaptive Spatial Pooling ConvNet」アーキテクチャを構築し、シーンベースの集約層(scene-based aggregation layer)を用いて複数サブネットワークからの予測を効果的に統合している。大規模な美的評価ベンチマーク(AVA)における実験結果から、本手法が写真の美的評価における最先端技術を顕著に向上させることを実証した。