
要約
弱教師ありオブジェクト定位(WSOL)は、画像レベルのラベルのみを用いてオブジェクトの位置を同定することを目的としている。従来の手法は、特徴マップと分類重みを活用して、画像レベルのラベルを間接的に用いてオブジェクトを定位しようとしてきた。本論文では、弱教師ありオブジェクト定位を「クラスに依存しないオブジェクト定位」と「オブジェクト分類」という二つの部分に分けるべきであることを示す。クラスに依存しないオブジェクト定位においては、クラスラベルなしで、クラスに依存しない手法を用いてノイズを含む擬似アノテーションを生成し、その後、それらに対してバウンディングボックス回帰を実施するべきである。そこで、WSOLを解決する新たなアプローチとして、擬似教師ありオブジェクト定位(PSOL)手法を提案する。本研究で提案するPSOLモデルは、微調整を施さずに異なるデータセット間で優れた汎化性能を示す。生成された擬似バウンディングボックスを用いることで、ImageNetでは58.00%、CUB-200では74.97%の定位精度を達成し、従来のモデルと比べて顕著な性能向上を実現した。