2ヶ月前

NOVIS: エンドツーエンドのニアオンラインビデオインスタンスセグメンテーションに関する提案

Tim Meinhardt; Matt Feiszli; Yuchen Fan; Laura Leal-Taixe; Rakesh Ranjan
NOVIS: エンドツーエンドのニアオンラインビデオインスタンスセグメンテーションに関する提案
要約

最近まで、ビデオインスタンスセグメンテーション(VIS)コミュニティでは、オフライン手法が一般的にフレームごとのオンライン処理よりも優れているという共通の認識がありました。しかし、オンライン手法の最近の成功は、特に挑戦的で長いビデオシーケンスにおいて、この認識を疑問視させるものとなっています。本研究は、これらの最近の観察に対する反論であり、コミュニティに対して専門的な準オンラインVISアプローチに焦点を当てるよう呼びかけるものです。私たちの主張を支持するために、異なる処理パラダイムに関する詳細な分析と、新しいエンドツーエンド学習可能なNOVIS(Near-Online Video Instance Segmentation)手法を提示します。NOVISのトランスフォーマーベースのモデルは、フレームクリップの空間時間マスクボリュームを直接予測し、重複埋め込みを介してクリップ間でのインスタンストラッキングを行います。NOVISは、手作りのトラッキングヒューリスティクスを一切避ける最初の準オンラインVISアプローチです。私たちは既存のすべてのVIS手法を大幅に上回り、YouTube-VIS(2019/2021)およびOVISベンチマークにおいて新たな最先端結果を提供しています。