12日前

教師なし動画オブジェクトセグメンテーション:同時ホットスポット追跡による手法

{Radomír Měch, You He, Zhe Lin, Jianming Zhang, Huchuan Lu, Lu Zhang}
教師なし動画オブジェクトセグメンテーション:同時ホットスポット追跡による手法
要約

オブジェクト追跡はコンピュータビジョン分野で広く研究されている問題である一方で、動画内におけるオブジェクトの顕著領域(サレンツスポット)を特定する課題は、文献においてまだ十分に探求されていない分野である。動画上の視線推定(video eye gaze estimation)手法は類似のタスクに取り組んでいるが、これらの手法におけるサレンツスポットはオブジェクトの境界によって制約されず、ノイズを含む教師データの影響により、予測結果が非常に散在的かつ不安定になりがちである。本研究では、顕著オブジェクト領域の検出と追跡という問題を、新たなタスクとして「オブジェクト・ホットスポット追跡(object hotspot tracking)」として再定式化する。本論文では、このタスクを、非教師あり動画オブジェクトセグメンテーションと同時に、リアルタイムで統一的なフレームワークによって解決することを提案する。具体的には、テンプレートフレームと検索フレーム間のピクセル単位の対応関係をエンコードするための「重み付き相関ブロック(Weighted Correlation Block: WCB)」を用いる重み付き相関シアンエスネットワーク(Weighted Correlation Siamese Network: WCS-Net)を提案する。さらに、WCBは初期マスク/ホットスポットをガイドとして用いることで、顕著領域の影響を強化し、追跡のロバスト性を向上させる。本システムは推論時にオンラインで動作可能であり、33 FPSの速度でオブジェクトマスクとホットスポットトラックレットを同時に生成できる。実験結果により、本ネットワーク設計の有効性が確認され、ホットスポット追跡とオブジェクトセグメンテーションの同時解決がもたらす利点が示された。特に、最先端の動画視線推定モデルと比較して、オブジェクト・ホットスポット追跡において優れた性能を発揮し、非教師あり動画オブジェクトセグメンテーションの3つのベンチマークデータセットにおいても、既存手法を上回る結果を達成した。