
要約
本論文では、入力ビデオの最初のフレームに初期オブジェクトマスクが与えられるというビデオオブジェクトセグメンテーションの問題を取り扱っています。この問題を解決するために、ピクセル上で定義された新しい空間時間的マルコフ随機場(MRF)モデルを提案します。従来のMRFモデルとは異なり、当モデルにおけるピクセル間の空間依存関係は畳み込みニューラルネットワーク(CNN)によって符号化されます。具体的には、特定のオブジェクトに対して、そのラベル付けが一連の空間的に近接するピクセル集合に対して予測される確率は、その特定のオブジェクトのために訓練されたCNNによって推定されます。これにより、集合内のピクセル間でより高次の豊かな依存関係がCNNによって暗黙的にモデル化されます。時間的な依存関係は光流によって確立され、結果として得られるMRFモデルは空間と時間の両方の手がかりを組み合わせてビデオオブジェクトセグメンテーションに対処します。しかし、非常に高次の依存関係があるため、MRFモデルでの推論は非常に困難です。これを解決するために、当モデルでは新しいCNN埋め込みアルゴリズムを提案し、MRFでの近似推論を行います。このアルゴリズムは、時間融合ステップと前向き伝播CNNステップとの交互実行によって進行します。外観に基づくワンショットセグメンテーションCNNで初期化された場合、当モデルはDAVIS 2017チャレンジの優勝エントリーを上回る性能を示しました。これはモデルアンサンブルや専用検出器を使用せずに達成されました。