2ヶ月前

多コンテキスト時系列一貫性モデリングによる指し示しビデオオブジェクトセグメンテーション

Sun-Hyuk Choi; Hayoung Jo; Seong-Whan Lee
多コンテキスト時系列一貫性モデリングによる指し示しビデオオブジェクトセグメンテーション
要約

参照動画オブジェクトセグメンテーションは、与えられたテキスト記述に対応する動画内のオブジェクトをセグメントすることを目指しています。既存のトランスフォーマーに基づく時間的モデリング手法は、クエリの一貫性不足とコンテクストの考慮が限られているという課題に直面しています。クエリの一貫性不足は、動画の中盤で異なるオブジェクトの不安定なマスクを生成します。コンテクストの考慮が限られているため、与えられたテキストとインスタンス間の関係を適切に考慮できない場合、誤ったオブジェクトがセグメントされます。これらの問題を解決するために、私たちはマルチコンテクスト時間的一貫性モジュール(Multi-context Temporal Consistency Module, MTCM)を提案します。MTCMはアライナとマルチコンテクストエンハンサー(Multi-Context Enhancer, MCE)から構成されています。アライナはクエリからのノイズを取り除き、それらを整列してクエリの一貫性を達成します。MCEは複数のコンテクストを考慮することで、テキストに関連するクエリを予測します。私たちはMTCMを4つの異なるモデルに適用し、すべてのモデルにおいて性能向上が見られました。特にMeViSデータセットでは47.6 J&Fのスコアを達成しました。コードはhttps://github.com/Choi58/MTCM で利用可能です。

多コンテキスト時系列一貫性モデリングによる指し示しビデオオブジェクトセグメンテーション | 最新論文 | HyperAI超神経