
要約
現行の最先端の注目物体検出ネットワークは、事前学習された畳み込みニューラルネットワーク(CNNs)の多層特徴を集約することに依存しています。高層特徴と比較して、低層特徴は性能への貢献が少ない一方で、空間解像度が大きいため計算コストが高いという問題があります。本論文では、高速かつ正確な注目物体検出のために新しいカスケード部分デコーダ(Cascaded Partial Decoder: CPD)フレームワークを提案します。一方で、このフレームワークは浅い層の大解像度特徴を捨てる部分デコーダを構築することで加速を図ります。他方で、深い層の特徴を統合することで比較的精度の高い注目マップを得られることに着目しました。したがって、生成された注目マップを直接利用してバックボーンネットワークの特徴を洗練する方法を取りました。この戦略により、特徴内の不要要素が効果的に抑制され、その表現能力が大幅に向上します。5つのベンチマークデータセットでの実験結果から、提案モデルは最先端の性能を達成するとともに、既存モデルよりも大幅に高速であることが示されました。さらに、提案したフレームワークは既存の多層特徴集合モデルの改善にも適用され、それらの効率と精度が著しく向上することが確認されました。