
要約
弱教師付きオブジェクト位置特定は依然として課題であり、学習時にバウンディングボックスではなく画像ラベルのみが利用可能です。オブジェクト提案は位置特定において効果的なコンポーネントですが、しばしば計算コストが高く、他の残りのモジュールと同時最適化することが困難です。本論文では、我々の知る限り初めて、弱教師付きオブジェクト提案をエンドツーエンド学習方式で畳み込みニューラルネットワーク(CNN)に統合しました。我々は、任意の標準的な畳み込みアーキテクチャに組み込むことができ、ほぼ無償でオブジェクト提案を行い、最先端の手法よりも桁違いに高速なネットワークコンポーネント「ソフトプロポーザル(Soft Proposal, SP)」を設計しました。SPを拡張したCNN、すなわちソフトプロポーザルネットワーク(Soft Proposal Networks, SPNs)では、深層特徴マップに基づいて反復的に進化するオブジェクト提案が生成され、逆投影され、さらに画像レベルの教師データのみを使用してネットワークパラメータと同時に最適化されます。統一された学習過程を通じて、SPNsはより良いオブジェクト中心のフィルタを学習し、より差別的な視覚的証拠を見つけるとともに背景干渉を抑制し、弱教師付きオブジェクト位置特定および分類性能を大幅に向上させます。我々はPASCAL VOC、MS COCO、ImageNetなどの主要ベンチマークで最高の結果を得ました。