2ヶ月前

デカップルされたビデオセグメンテーションを用いた任意の物体追跡

Ho Kei Cheng; Seoung Wug Oh; Brian Price; Alexander Schwing; Joon-Young Lee

要約

ビデオセグメンテーションのトレーニングデータは、アノテーションにコストがかかります。これにより、エンドツーエンドのアルゴリズムを新しいビデオセグメンテーションタスク、特に大語彙設定に拡張することが困難になります。各個別のタスクのビデオデータでトレーニングを行うことなく「何でも追跡」（'track anything'）を実現するため、私たちはタスク固有の画像レベルセグメンテーションとクラス/タスク非依存の双方向時系列伝播から構成される分離型ビデオセグメンテーション手法（DEVA）を開発しました。この設計により、対象タスク用の画像レベルモデル（これは比較的安価にトレーニングできます）と一回だけトレーニングして複数のタスクに汎化可能な普遍的な時系列伝播モデルのみが必要となります。これらの2つのモジュールを効果的に組み合わせるため、異なるフレームからのセグメンテーション仮説を（半）オンラインで融合するために双方向伝播を使用します。これにより一貫したセグメンテーションが生成されます。私たちは、この分離型フォーマレーションが大語彙ビデオパノプティックセグメンテーション、オープンワールドビデオセグメンテーション、参照ビデオセグメンテーション、および教師なしビデオ物体セグメンテーションなどのデータ不足タスクにおいて、エンドツーエンドアプローチと比較して有利であることを示しています。コードは以下のURLから入手可能です: https://hkchengrex.github.io/Tracking-Anything-with-DEVA