8ヶ月前

概要

本研究では、高速かつ高精度な動画オブジェクトセグメンテーションを実現する新しいモデルを提案する。本モデルは、動的ターゲットネットワーク（Dynamic Targeting Network: DTN）とマスク精細化ネットワーク（Mask Refinement Network: MRN）の2つの畳み込みニューラルネットワークから構成される。DTNは、ターゲットオブジェクトの周囲にある注目領域に動的に焦点を当てることで、オブジェクトの位置を特定する。DTNは、ボックス伝播（Box Propagation: BP）とボックス再識別（Box Re-identification: BR）の2つのサブストリームを用いて、ターゲット領域を予測する。BPストリームは高速であるが、オブジェクトの大きな変形や遮蔽がある場合に効果が劣る。一方、BRストリームは困難なシナリオにおいて優れた性能を発揮するが、計算コストが高くなる。そこで、各フレームごとに適切なサブストリームを選択するための決定モジュール（Decision Module: DM）を提案する。最終的に、MRNを用いてターゲット領域内のセグメンテーションを予測する。公開データセット2種類における実験結果から、本モデルはオンライン学習を必要としない既存手法と比較して、精度と効率の両面で顕著に優れており、オンライン学習に基づく手法と同等の精度を達成しつつ、処理速度は1桁以上高速であることが示された。

ソースPDF