
要約
弱教師付き物体検出(Weakly Supervised Object Detection: WSOD)は、画像レベルのカテゴリラベルのみを用いて物体検出器を学習する有効な手法として注目されている。しかし、物体レベルのラベルが存在しないため、WSOD検出器は顕著な物体や集団的に配置された物体、特徴的な物体部位に限定されたバウンディングボックスを検出する傾向がある。さらに、画像レベルのカテゴリラベルでは、同一画像の異なる変換に対して一貫した物体検出を強制することができない。これらの課題に対処するため、本研究では、WSOD用の包括的注意機構自己蒸留(Comprehensive Attention Self-Distillation: CASD)学習手法を提案する。CASDは、同一画像の複数の変換および複数の特徴層から得られる注意マップを統合し、すべての物体インスタンス間の特徴学習のバランスを図る。また、物体に対する空間的監視の一貫性を確保するため、WSODネットワーク内で自己蒸留を実施し、同一画像の複数の変換および特徴層が同時に包括的注意マップを近似するようにする。提案手法CASDは、PASCAL VOC 2007/2012およびMS-COCOといった標準ベンチマークにおいて、新たな最先端のWSOD性能を達成した。