2ヶ月前
ビデオパノプティックセグメンテーションのためのすべてのセグメントを関連付ける学習
Sanghyun Woo; Dahun Kim; Joon-Young Lee; In So Kweon

要約
時系列対応(フレーム間でのピクセルやオブジェクトの対応付け)は、ビデオモデルにとって基本的な監督信号です。動的シーンのパノプティック理解のために、この概念をすべてのセグメントにさらに拡張します。具体的には、粗いセグメントレベルのマッチングと細かいピクセルレベルのマッチングを同時に学習することを目指しています。このアイデアを実現するために、2つの新しい学習目的を設計しました。提案手法の有効性を検証するため、深層シアムモデルを採用し、モデルをターゲットタスクとともに2つの異なるレベル(すなわち、セグメントとピクセル)での時系列対応を学習させるように訓練しました。推論時には、モデルが追加の計算や後処理なしで各フレームを独立して処理します。我々のフレームごとの推論モデルは、Cityscapes-VPSおよびVIPERデータセットにおいて新たな最先端の結果を達成できることを示しています。さらに、その高い効率性により、以前の最先端手法に比べて大幅に短い時間(3分の1)で動作します。