11日前
あなたが植えたものはあなたが収穫する:動画を活用した弱教師付き物体検出における高精度なオブジェクト候補の生成
{ Yong Jae Lee, Krishna Kumar Singh}

要約
本研究では、弱教師あり物体検出のための高精度な物体候補領域を獲得するための新しい動画活用法を提案する。従来の弱教師あり検出手法は、エッジボックスやセレクティブサーチなどの既存の候補領域生成手法を用いて候補ボックスを取得している。これらの手法は高い再現率(recall)を達成するが、その代わりに数千ものノイズを含む候補領域が生成される。その結果、実際に関連する物体領域を特定するという重い負担が、その後の物体マイニングステップに一任されることになる。この問題を軽減するために、本研究では初期の候補領域の精度を向上させることに焦点を当てる。位置情報のラベルが利用できないため、動画データを活用し、運動情報(motion cues)を用いて物体の範囲を自動的に推定することで、弱教師あり領域候補ネットワーク(Weakly-supervised Region Proposal Network; W-RPN)を学習する。得られたW-RPNにより高精度な物体候補領域を生成し、これらを用いてエッジボックスやセレクティブサーチなどの高再現率な候補領域を、空間的オーバーラップに基づいて再ランク付けする。実験の結果、PASCAL VOC 2007および2012データセットにおいて、最先端の弱教師あり物体検出手法に対して、本手法によるW-RPN候補領域が顕著な性能向上をもたらした。