DVIS++: 普遍的なビデオセグメンテーションのための改善された分離フレームワーク

我々は\textbf{D}ecoupled \textbf{VI}deo \textbf{S}egmentation (DVIS) フレームワークを提案します。これは、ビデオインスタンスセグメンテーション (VIS)、ビデオセマンティックセグメンテーション (VSS)、およびビデオパノプティックセグメンテーション (VPS) を含む普遍的なビデオセグメンテーションという困難な課題に対する新しいアプローチです。従来の方法がビデオセグメンテーションをエンドツーエンドでモデル化するのとは異なり、当方針ではビデオセグメンテーションを3つの連続的なサブタスクに分離します:セグメンテーション、追跡、および洗練。この分離設計により、特に複雑なシーンや長時間のビデオにおいて、物体の空間時系列表現をより単純かつ効果的にモデル化することが可能になります。それに応じて、我々は2つの新規コンポーネントを導入します:参照追跡器と時間的洗練器。これらのコンポーネントはフレームごとに物体を追跡し、事前に整列された特徴に基づいて空間時系列表現をモデル化します。DVISの追跡能力向上のために、我々はノイズ除去トレーニング戦略を提案し、コントラスティブ学習を導入しました。これにより、より堅牢なフレームワークであるDVIS++が実現されました。さらに、様々な設定下でのDVIS++の評価を行いました。これにはオープンボキャブラリー設定や事前学習済みバックボーンを使用した場合も含まれます。CLIPとDVIS++を統合することで、OV-DVIS++という最初のオープンボキャブラリー普遍的ビデオセグメンテーションフレームワークを提示します。6つの主要ベンチマークデータセット(VIS, VSS, およびVPSデータセット)上で広範な実験を行い、一貫したアーキテクチャを使用してDVIS++はこれらベンチマークにおいて既存の最先端専門手法よりも著しく優れた性能を発揮することを確認しました。コード:~\url{https://github.com/zhang-tao-whu/DVIS_Plus}