
空間時間動画位置特定(Spatio-Temporal Video Grounding、以下STVG)タスクは、テキストクエリが与えられた特定のインスタンスに対して、空間時間的な範囲を特定することを目指しています。しかし、現在の手法は、テキストから得られるオブジェクト情報が不足しているため、動画内の誘導要素やオブジェクトの外観変化に容易に影響を受け、性能が低下する傾向があります。これを解決するために、我々は新しいフレームワークであるコンテクストガイダンスSTVG(Context-Guided STVG、以下CG-STVG)を提案します。CG-STVGの特徴は、動画内のオブジェクトに対する識別可能なインスタンスコンテクストを抽出し、それを目標位置特定の補助ガイダンスとして適用することにあります。CG-STVGの核心となるのは、特別に設計された2つのモジュールです。これらはインスタンスコンテクスト生成(Instance Context Generation、以下ICG)とインスタンスコンテクスト精製(Instance Context Refinement、以下ICR)です。ICGはインスタンスの視覚的なコンテクスト情報を(外観と動きの両面で)発見することに焦点を当てています。一方、ICRはICGから得られたインスタンスコンテクストから無関係な甚至有害な情報を除去することで、その品質を向上させることを目指しています。位置特定プロセスでは、トランスフォーマー構造の各デコーディングステージでICGとICRが展開され、インスタンスコンテクスト学習が行われます。特に、あるデコーディングステージで学習したインスタンスコンテクストは次のステージへと供給され、豊富で識別可能なオブジェクト特徴を含むガイダンスとして利用されます。これによりデコーディング特徴における目標意識が強化されるとともに、逆に新しいより良いインスタンスコンテクストの生成にも貢献し、最終的に位置特定精度の向上につながります。既存手法と比較して、CG-STVGはテキストクエリからのオブジェクト情報と掘り起こした視覚的コンテクストからのガイダンスを利用することでより正確な目標位置特定を実現します。我々がHCSTVG-v1/-v2およびVidSTGという3つのベンチマークで行った実験では、CG-STVGはすべてにおいてm_tIoUおよびm_vIoUにおいて新たな最先端性能を達成し、その効果性を示しました。コードはhttps://github.com/HengLan/CGSTVG にて公開予定です。