HyperAIHyperAI

Command Palette

Search for a command to run...

UniVS: プロンプトをクエリとして使用した統一的かつ普遍的なビデオセグメンテーション

Minghan Li Shuai Li Xindong Zhang Lei Zhang

概要

最近の統一画像セグメンテーション(IS)の進歩にもかかわらず、統一ビデオセグメンテーション(VS)モデルの開発は依然として課題となっています。これは主に、一般的なカテゴリ指定型VSタスクではすべての物体を検出し、連続するフレーム間で追跡する必要がある一方、プロンプトガイド型VSタスクでは視覚的/テキストプロンプトを使用して目標を全ビデオを通じて再識別する必要があり、同じアーキテクチャで異なるタスクを処理することが難しくなるためです。これらの問題に対処するために、我々はプロンプトをクエリとして使用する新しい統一VSアーキテクチャであるUniVSを提案します。UniVSは、前のフレームから目標のプロンプト特徴量を平均化し、その初期クエリとして使用することでマスクを明示的にデコードし、マスクデコーダー内に目標ごとのプロンプトクロスアテンション層を導入してメモリプール内のプロンプト特徴量を統合します。前のフレームからのエンティティの予測されたマスクを視覚的プロンプトとして取り扱うことで、UniVSは異なるVSタスクをプロンプトガイド型目標セグメンテーションに変換し、ヒューリスティックなフレーム間マッチング過程を排除します。当社のフレームワークは、異なるVSタスクを統一するだけでなく、自然に普遍的な訓練とテストも達成し、さまざまなシナリオでの堅牢な性能を確保します。UniVSは10つの挑戦的なVSベンチマークにおいて、ビデオインスタンスセグメンテーション、意味セグメンテーション、パノラマセグメンテーション、物体セグメンテーションおよび参照セグメンテーションタスクにおいて優れたバランス性と汎用性を示しています。コードは\url{https://github.com/MinghanLi/UniVS}で入手可能です


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています