ピクセルレベルの全単写合致による動画オブジェクトセグメンテーション

半教師あり動画オブジェクトセグメンテーション(VOS)は、動画の初期フレームに存在する指定オブジェクトをピクセル単位で追跡することを目的としています。オブジェクトの外観情報を効果的に活用するため、VOSではピクセルレベルの特徴マッチングが広く用いられています。従来の特徴マッチングは単射(surjective)なアプローチを採用しており、クエリフレームから参照フレームへのマッチングにおいて、最も良い一致のみを考慮します。この方法では、クエリフレームの各ピクセルが参照フレームにおける最適な位置に一致する一方で、参照フレームの各位置が複数回参照される可能性があるものの、その頻度は無視されます。このアプローチは多くの場合に良好に機能し、外観の急激な変化に対しても堅牢ですが、クエリフレームにターゲットオブジェクトと類似した背景の干渉要因(distractor)が含まれる場合には、重大な誤検出を引き起こす可能性があります。これを緩和するために、本研究ではクエリフレームから参照フレームへのマッチングとその逆方向のマッチングの両方を最適化する双射(bijective)マッチング機構を提案します。クエリフレームのピクセルに対する最適マッチングを探索する前に、まず参照フレームのピクセルに対する最適マッチングを評価することで、参照フレームの各ピクセルが過剰に参照されることを防ぎます。この機構は厳密な制約のもとで動作するため、ピクセル間の接続は、互いに確実なマッチングである場合にのみ成立します。この性質により、背景の干渉要因を効果的に排除することが可能になります。さらに、既存のマスク伝搬手法を改善するため、マスク埋め込みモジュール(mask embedding module)を提案します。このモジュールは、座標情報とともに複数の過去のマスクを埋め込むことで、ターゲットオブジェクトの位置情報を効果的に捉えることができます。これにより、オブジェクトの位置推移をより正確に追跡することが可能となり、セグメンテーションの精度が向上します。