
要約
大規模なラベル付きデータセットから訓練された畳み込みニューラルネットワーク(convnets)は、画像分類と物体検出における最先端の技術を大幅に向上させました。しかし、視覚的な理解には物体カテゴリよりも細かいレベルでの対応関係の確立が必要です。これらのネットワークは大きなプーリング領域を持ち、全体画像のラベルから訓練されるため、その成功が正確な対応モデルに基づいているかどうかは明確ではありません。この論文では、convnetの活性化特徴量が対応関係を必要とするタスクにおいてどの程度有効であるかを研究します。私たちは、convnetの特徴量が受容野サイズよりもずっと細かいスケールで局所化し、従来の手動で設計された特徴量と同様にクラス内アライメントを行うことができることを示す証拠を提示します。さらに、PASCAL VOC 2011の物体に対するキーポイント予測において、これらの特徴量が従来の特徴量を上回ることも示しています。