
要約
弱教師付き物体検出(Weakly Supervised Object Detection, WSOD)は、物体検出タスクの学習に画像レベルのラベルのみを用いる。WSODは、時間的に膨大なコストを要するインスタンスレベルのラベルを必要としないため、このタスクに関する研究はますます注目を集めている。従来の弱教師付き物体検出手法は、検出器と疑似ラベルを反復的に更新する方法や、特徴に基づくマスクアウト手法を採用している。しかし、これらの多くは完全かつ正確な候補領域(proposal)を生成できず、物体の最も特徴的な部分のみを捉えるか、あるいは背景領域が多すぎることが一般的である。この問題を解決するため、本研究では弱教師付き物体検出ネットワークにボックス回帰モジュールを導入し、それを監視するための提案スコアリングネットワーク(Proposal Scoring Network, PSNet)を提案した。ボックス回帰モジュールは、候補領域を修正することで、候補領域と真値(ground truth)間のIoU(Intersection over Union)を向上させる。一方、PSNetはボックス回帰ネットワークから出力される候補領域に対してスコアを付与し、そのスコアを活用してボックス回帰モジュールの性能を改善する。さらに、より正確な疑似ラベルを生成するためにPRSアルゴリズムを活用し、ボックス回帰モジュールの学習を強化した。これらの手法を用いて、PASCAL VOC 2007および2012データセット上で検出器を学習した結果、顕著な性能向上が得られた。