2ヶ月前
再帰的な動的埋め込みによるビデオオブジェクトセグメンテーション
Mingxing Li; Li Hu; Zhiwei Xiong; Bang Zhang; Pan Pan; Dong Liu

要約
時空記憶(STM)に基づくビデオオブジェクトセグメンテーション(VOS)ネットワークは、通常、数フレームごとにメモリバンクを増やし、優れた性能を示しています。しかし、1) ビデオの長さが増すにつれてハードウェアが持つメモリ要件の継続的な増加に耐えられない問題があります。2) 多量の情報を保存することは、必然的に多くのノイズを導入し、メモリバンクから最も重要な情報を読み取ることを妨げます。本論文では、一定のサイズのメモリバンクを構築するための再帰的動的埋め込み(RDE)を提案します。具体的には、提案された空間時間集約モジュール(SAM)によって RDE を明示的に生成および更新します。この SAM は歴史的情報の手がかりを利用します。SAM の再帰的使用による誤差蓄積を避けるために、訓練段階で無偏ガイド損失を提案しました。これにより SAM は長いビデオにおいてより堅牢になります。さらに、メモリバンク内の予測マスクはネットワーク推論の不正確さにより不正確となり、これが照会フレームのセグメンテーションに影響を与えます。この問題に対処するために、異なる品質を持つマスクの埋め込みを修復できる新しい自己訂正戦略を設計しました。広範な実験結果は、当方法が性能と速度の最適なバランスを達成していることを示しています。コードは https://github.com/Limingxing00/RDE-VOS-CVPR2022 で入手可能です。