
要約
近年の多数の研究において、深層畳み込みニューラルネットワーク(deep convolutional neural networks)によって生成される画像記述子が、画像分類および画像検索の問題において最先端の性能を達成していることが示されている。また、畳み込み層の活性化値は、画像の特定領域を記述する局所特徴として解釈可能であることも明らかになっている。これらの局所特徴は、従来の局所特徴に用いられる集約手法(例えば、Fisherベクトル)を適用することで、新たな強力なグローバル記述子を構築できる。本論文では、深層局所特徴をどのように集約するかを検討し、画像検索用のコンパクトな記述子を生成する方法について考察する。まず、深層特徴と従来の手作業で設計された特徴の間には、ペアワイズ類似度の分布が大きく異なることが示され、従来の集約手法は慎重に再評価する必要があることが明らかになった。この再評価により、浅層特徴とは異なり、単純な和プーリング(sum pooling)に基づく集約法が深層畳み込み特徴に対して最も優れた性能を示すことが分かった。この手法は効率的であり、パラメータが少なく、たとえばPCA行列の学習において過学習のリスクも極めて低い。さらに、提案する集約法に適したシンプルかつ効率的なクエリ拡張(query expansion)スキームを提案する。総合的に、本研究で提案する新しいコンパクトなグローバル記述子は、4つの代表的なベンチマークにおいて、従来の最先端手法を大幅に上回る性能を達成した。