
要約
弱教師あり物体検出ネットワークにおいて、インスタンスレベルのカテゴリラベルが存在しないため、物体の位置を正確に予測することは困難である。従来の大多数の手法は、2段階の学習手順を採用している。すなわち、複数インスタンス学習(Multiple Instance Learning: MIL)に基づく検出器を用いた段階の後に、バウンディングボックス回帰を伴う完全教師あり学習の検出器を適用する方法である。本研究では、この2段階学習プロセスが一部の物体カテゴリにおいて局所最適解に陥る可能性があることに着目した。そこで本論文では、この問題に対処するため、2段階の学習をエンドツーエンドで一括して最適化する手法を提案する。具体的には、同じバックボーンを共有する複数インスタンス学習ブランチとバウンディングボックス回帰ブランチを備えた単一ネットワークを設計した。さらに、特徴量中に含まれる潜在的な位置情報(implicit location information)を効果的に抽出するため、分類損失を用いたガイド付きアテンションモジュールをバックボーンに追加した。公開データセットにおける実験結果から、本手法が最先端の性能を達成することが示された。