2ヶ月前

ReferDINO: 可視的基盤を用いた参照動画オブジェクトセグメンテーション

Tianming Liang; Kun-Yu Lin; Chaolei Tan; Jianguo Zhang; Wei-Shi Zheng; Jian-Fang Hu
ReferDINO: 可視的基盤を用いた参照動画オブジェクトセグメンテーション
要約

参照動画オブジェクトセグメンテーション(RVOS)は、テキスト記述に基づいて動画全体の対象オブジェクトをセグメンテーションすることを目指しています。近年著しい進歩が見られますが、現在のRVOSモデルは、限られたビデオ言語理解のために複雑なオブジェクト記述を処理するのに苦労しています。この制約に対処するために、私たちは\textbf{ReferDINO}を提案します。これは、事前学習された視覚的基盤モデルから強力なビジョン言語理解を受け継ぎ、さらに効果的な時間的理解とオブジェクトセグメンテーション能力を持つエンドツーエンドのRVOSモデルです。ReferDINOでは、基盤モデルをRVOSに効果的に適応させるために3つの技術革新を提供します。1) オブジェクト一貫性のある時間的強化器(object-consistent temporal enhancer):事前学習されたオブジェクト-テキスト表現を利用して、時間的理解とオブジェクトの一貫性を向上させます。2) グラウンド化ガイダンス付き変形マスクデコーダ(grounding-guided deformable mask decoder):テキストとグラウンド化条件を統合して正確なオブジェクトマスクを生成します。3) 信頼度に基づくクエリ剪定戦略(confidence-aware query pruning strategy):性能を損なうことなく、オブジェクトデコードの効率性を大幅に向上させます。私たちは5つの公開RVOSベンチマークで広範な実験を行い、提案したReferDINOが最先端の手法を大幅に上回ることを示しました。プロジェクトページ: \url{https://isee-laboratory.github.io/ReferDINO}

ReferDINO: 可視的基盤を用いた参照動画オブジェクトセグメンテーション | 最新論文 | HyperAI超神経