2ヶ月前

人間のアノテーションなしでCNN画像検索をファインチューニング

Filip Radenović; Giorgos Tolias; Ondřej Chum

要約

畳み込みニューラルネットワーク（CNN）の活性化に基づく画像記述子は、その識別力、表現のコンパクトさ、および検索効率性により、画像検索において主流となっています。CNNの学習、特にゼロから始める学習や微調整には大量のアノテーションデータが必要であり、高品質なアノテーションがしばしば重要です。本研究では、大規模な無順序画像コレクションを完全に自動的に用いて、画像検索向けにCNNを微調整する方法を提案します。最先端の検索とモーションから構造（Structure-from-Motion, SfM）手法によって得られた再構築3Dモデルが訓練データの選択をガイドします。我々は、3Dモデルから利用可能な幾何学情報とカメラ位置を利用して選択された難易度の高い正例（hard-positive）と負例（hard-negative）が特定物体検索の性能向上に寄与することを示しました。同じ訓練データから差別的に学習したCNN記述子ホワイトニングは、一般的に使用されるPCAホワイトニングよりも優れた性能を発揮します。また、最大値プーリングと平均値プーリングを一般化する新しい学習可能な汎化平均（Generalized-Mean, GeM）プーリング層を提案し、これが検索性能を向上させることを示しました。提案手法をVGGネットワークに適用することで、Oxford Buildings, Paris, および Holidays データセットにおける標準的なベンチマークで最先端の性能を達成しています。