
要約
本稿では、未教師ありかつ測地距離に基づく顕著な動画オブジェクトセグメンテーション手法を提案する。従来の手法とは異なり、本手法は堅牢な測地距離計測を用いて、オブジェクトに対する顕著性を事前知識として組み込む。対象となる前景オブジェクトの位置を示す指標として、空間的なエッジと時間的な運動境界という2つの判別性の高い視覚特徴を採用する。まず、これらの指標からの測地距離を用いて、各フレームごとの時空間的顕著性マップを生成する。前景領域が時空間エッジ値が高い領域に囲まれているという観察に基づき、測地距離により前景および背景の初期推定が得られる。その後のフレームにおける背景領域への測地距離を用いて、高品質な顕著性結果が得られる。得られた顕著性マップを基に、前景および背景のグローバルな外観モデルを構築する。さらに、運動の連続性を制約することで、各フレームに対する動的位置モデルを構築する。最終的に、時空間的顕著性マップ、外観モデル、動的位置モデルを統合し、エネルギー最小化フレームワークを用いて、空間的かつ時間的に整合性のあるオブジェクトセグメンテーションを実現する。ベンチマーク動画データセットにおける広範な定量的および定性的な実験により、本手法が最先端のアルゴリズムを上回る優位性を示している。