UniVS: プロンプトをクエリとして使用した統一的かつ普遍的なビデオセグメンテーション

最近の統一画像セグメンテーション(IS)の進歩にもかかわらず、統一ビデオセグメンテーション(VS)モデルの開発は依然として課題となっています。これは主に、一般的なカテゴリ指定型VSタスクではすべての物体を検出し、連続するフレーム間で追跡する必要がある一方、プロンプトガイド型VSタスクでは視覚的/テキストプロンプトを使用して目標を全ビデオを通じて再識別する必要があり、同じアーキテクチャで異なるタスクを処理することが難しくなるためです。これらの問題に対処するために、我々はプロンプトをクエリとして使用する新しい統一VSアーキテクチャであるUniVSを提案します。UniVSは、前のフレームから目標のプロンプト特徴量を平均化し、その初期クエリとして使用することでマスクを明示的にデコードし、マスクデコーダー内に目標ごとのプロンプトクロスアテンション層を導入してメモリプール内のプロンプト特徴量を統合します。前のフレームからのエンティティの予測されたマスクを視覚的プロンプトとして取り扱うことで、UniVSは異なるVSタスクをプロンプトガイド型目標セグメンテーションに変換し、ヒューリスティックなフレーム間マッチング過程を排除します。当社のフレームワークは、異なるVSタスクを統一するだけでなく、自然に普遍的な訓練とテストも達成し、さまざまなシナリオでの堅牢な性能を確保します。UniVSは10つの挑戦的なVSベンチマークにおいて、ビデオインスタンスセグメンテーション、意味セグメンテーション、パノラマセグメンテーション、物体セグメンテーションおよび参照セグメンテーションタスクにおいて優れたバランス性と汎用性を示しています。コードは\url{https://github.com/MinghanLi/UniVS}で入手可能です。