11日前

LSMVOS:ビデオオブジェクトに対するロングショートターム類似性マッチング

Zhang Xuerui, Yuan Xia
LSMVOS:ビデオオブジェクトに対するロングショートターム類似性マッチング
要約

目的:半教師あり動画オブジェクトセグメンテーションは、最初のフレームにおけるオブジェクトラベルをもとに、その後のフレームにおけるオブジェクトをセグメンテーションするタスクである。従来の手法は主にマッチングと伝搬戦略に基づいており、多くの場合、前のフレームのマスクや光流(optical flow)を利用している。本論文では、新たな伝搬手法を提案する。具体的には、短期間マッチングモジュールを用いて前のフレームの情報を抽出し、それを伝搬に活用する。さらに、動画オブジェクトセグメンテーションのための長期短期類似度マッチングネットワーク(LSMOVS)を提案する。手法:最初のフレームと前のフレームに対して、長期マッチングモジュールと短期間マッチングモジュールを用いたピクセル単位のマッチングおよび相関計算を行い、グローバル類似度マップとローカル類似度マップ、現在フレームの特徴パターン、および前のフレームのマスクを取得する。その後、2つの精緻化ネットワークを経て、最終的にセグメンテーションネットワークにより結果を出力する。結果:DAVIS 2016および2017の2つのデータセットにおける実験結果によると、本手法はオンラインファインチューニングを用いずに、領域類似度と輪郭精度の平均値において良好な性能を達成した。単一オブジェクトの場合、86.5%、複数オブジェクトの場合77.4%のスコアを達成した。また、1秒間にセグメンテーション可能なフレーム数は21フレームに達した。結論:本論文で提案する短期間マッチングモジュールは、単なるマスク情報に依存する場合よりも、前のフレームからの情報をより効果的に抽出できる。長期マッチングモジュールと短期間マッチングモジュールを組み合わせることで、オンラインファインチューニングを必要とせずに、効率的な動画オブジェクトセグメンテーションが実現可能であることが示された。

LSMVOS:ビデオオブジェクトに対するロングショートターム類似性マッチング | 最新論文 | HyperAI超神経