2ヶ月前
時空間グラフニューラルネットワークを用いたビデオオブジェクトセグメンテーションのマスク再構成
Liu, Daizong ; Xu, Shuangjie ; Liu, Xiao-Yang ; Xu, Zichuan ; Wei, Wei ; Zhou, Pan

要約
本論文では、半教師あり設定におけるクラス非依存オブジェクトのセグメンテーションタスクに取り組んでいます。従来の検出ベースの手法は比較的良好な性能を達成していますが、これらのアプローチは貪欲戦略により最良の提案を選択するため、選択された候補の外側にある局所パッチの詳細を失う可能性があります。本論文では、ビデオオブジェクトセグメンテーションのためにより正確なマスクを再構築する新しい空間時間グラフニューラルネットワーク(STG-Net)を提案します。このネットワークは、すべての提案を利用することで局所コンテキストを捉えます。空間グラフにおいては、フレーム内のオブジェクト提案をノードとして扱い、エッジウェイト戦略を使用してマスクコンテキストの集約を表現します。時間的な情報を過去のフレームから捉えるために、メモリネットワークを使用して時間グラフ内の歴史的なマスクを参照し、現在のフレームのマスクを精製します。局所パッチ詳細と時間的な関係性の両方を組み合わせることで、オブジェクト遮蔽や欠落などの課題に対処する能力が向上します。オンライン学習や微調整を行わずに、我々のSTG-NetはDAVIS, YouTube-VOS, SegTrack-v2, およびYouTube-Objectsという4つの大規模ベンチマークで最先端の性能を達成しており、提案手法の有効性が示されています。