2ヶ月前
RefineVIS: 時間注意制御を用いたビデオインスタンスセグメンテーション
Andre Abrantes; Jiang Wang; Peng Chu; Quanzeng You; Zicheng Liu

要約
我々は、フレーム間で良好なオブジェクト関連付けと正確なセグメンテーションマスクを達成するために、シーケンスコンテキストを使用して反復的に表現を洗練する新しいフレームワークRefineVISを提案します。RefineVISは、既製のフレームレベルの画像インスタンスセグメンテーションモデルの上に2つの異なる表現を学習します:1つはフレーム間でのオブジェクトの関連付けを担当するアソシエーション表現、もう1つは正確なセグメンテーションマスクを生成するセグメンテーション表現です。コントラスティブラーニングが用いられて、時間的に安定したアソシエーション表現を学習します。Temporal Attention Refinement (TAR)モジュールは、時間的な関係性と新しい時間的コントラスティブデノイジング技術を利用することで、識別的なセグメンテーション表現を学習します。本手法はオンライン推論とオフライン推論の両方に対応しています。YouTube-VIS 2019(64.4 AP)、YouTube-VIS 2021(61.4 AP)、OVIS(46.1 AP)データセットにおいて最先端のビデオインスタンスセグメンテーション精度を達成しています。可視化結果から、TARモジュールが特に高度に遮蔽されたオブジェクトなどの難易度が高いケースでもより正確なインスタンスセグメンテーションマスクを生成できることを示しています。