
要約
本論文では、犬のような物体とその顔や脚などの意味的な部位の同時検出問題に取り組んでいます。我々のモデルは、特徴を共有する2つのFaster-RCNNモデルを基盤としており、関連する物体と部位の特徴量を新しいアテンションベースの特徴融合により強化し、両方の表現を向上させます。これらの表現は、最終的な分類とバウンディングボックス回帰のためにそれぞれのモデルで別々に使用されます。PASCAL-Part 2010データセットでの実験結果は、平均精度(mean Average Precision: mAP)においてIoU=0.5の場合、同時検出が物体検出と部位検出の双方を同時に改善できることを示しています。