2ヶ月前
時間トークンに悪魔あり:高品質ビデオの論理的セグメンテーション
Sitong Gong; Yunzhi Zhuge; Lu Zhang; Zongxin Yang; Pingping Zhang; Huchuan Lu

要約
既存のビデオリーズニングセグメンテーション手法は、キーフレームまたは全体のビデオ内の物体を表すために単一の特殊トークンに大きく依存しており、空間的な複雑さやフレーム間の動きを十分に捉えていません。これらの課題を克服するために、私たちはVRS-HQというエンドツーエンドのビデオリーズニングセグメンテーションアプローチを提案します。この手法では、マルチモーダル大規模言語モデル(MLLM)を使用して、階層的なトークンに豊富な時空間特徴を注入します。主な革新点には、時間動的集約(Temporal Dynamic Aggregation: TDA)とトークン駆動型キーフレーム選択(Token-driven Keyframe Selection: TKS)が含まれます。具体的には、フレームレベルの<SEG>トークンと時間レベルの<TAK>トークンを設計し、MLLMの自己回帰学習を利用して局所情報と全局情報を効果的に捉えます。その後、類似度に基づく重み付け融合とフレーム選択戦略を適用し、SAM2を使用してキーフレームセグメンテーションと伝播を行います。推論時にSAM2の被覆スコアに基づいてキーフレームを選別することで、キーフレーム位置特定の精度を向上させます。VRS-HQはReVOSにおいて最先端の性能を達成し、3つのサブセットにおけるJ&FスコアでVISAを超える5.9%/12.5%/9.1%の改善を示しています。これらの結果は、私たちの手法が強力な時間的推論能力和セグメンテーション能力を持つことを示しています。コードとモデルウェイトはVRS-HQで公開される予定です。