2ヶ月前
TarViS: ターゲットベースのビデオセグメンテーションの統一アプローチ
Ali Athar; Alexander Hermans; Jonathon Luiten; Deva Ramanan; Bastian Leibe

要約
ビデオセグメンテーションの一般的な領域は現在、複数のベンチマークにわたる異なるタスクに分断されています。最先端技術において急速な進歩が見られる一方で、現行の手法は圧倒的に特定のタスク向けであり、他のタスクへの概念的な汎化が困難です。最近のマルチタスク対応アプローチに着想を得て、私たちはTarViS(Target-aware Video Segmentation)を提案します。これは、任意に定義された「目標」をビデオ内でセグメンテーションする必要があるあらゆるタスクに適用可能な新しい統一ネットワークアーキテクチャです。当アプローチは、これらの目標をどのように定義するかによって柔軟性を持ち、後者を抽象的な「クエリ」としてモデル化し、それを使ってピクセル精度の目標マスクを予測します。単一のTarViSモデルは、異なるタスクをカバーするデータセット群に対して共同で訓練され、推論時に特定のタスク向けの再学習なしでタスク間での切り替えが可能です。その有効性を示すために、私たちはTarViSを4つの異なるタスクに適用しました。これらはビデオインスタンスセグメンテーション(VIS)、ビデオパノプティックセグメンテーション(VPS)、ビデオオブジェクトセグメンテーション(VOS)、およびポイント例示ガイド追跡(PET)です。私たちの統一され共同訓練されたモデルは、これらの4つのタスクにまたがる7つのベンチマーク中の5つで最先端の性能を達成し、残りの2つでも競争力のある性能を発揮しています。コードとモデルウェイトは以下のURLから入手できます: https://github.com/Ali2500/TarViS