要約
視覚データの美的評価を目的とした知能システムにおいて、画像属性やシーン意味といった明示的な情報を含む集約構造は、効果的かつ人気のある手法である。しかしながら、手動アノテーションや専門家による設計に伴う高コストのため、有用な情報が入手できない場合も少なくない。本稿では、画像の美的評価を目的とした新しいマルチパッチ(MP)集約手法を提案する。従来の最先端手法がさまざまな視覚的属性をMP集約ネットワークに付加するのに対し、本手法は美的ラベル(すなわち、美的に肯定的または否定的)のみを用いて、エンドツーエンドでモデルを学習する。この目的を達成するために、訓練過程において各パッチの重みを適応的に調整するアテンションベースのメカニズムを導入し、学習効率の向上を図っている。さらに、平均、最小、適応的の3つの代表的なアテンションメカニズムを用いた複数の目的関数を提案し、Aesthetic Visual Analysis(AVA)ベンチマーク上でその有効性を評価した。数値実験の結果、本手法は既存の方法を大きく上回る性能を達成した。さらに、アブレーションスタディを通じて、提案するアテンションベースの目的関数の有効性を実証し、美的評価システムの設計に向けた知見を提供した。