11日前

ターゲットを知ること:ターゲット感知型Transformerによるより優れた空間時間動画接地

Xin Gu, Yaojie Shen, Chenxi Luo, Tiejian Luo, Yan Huang, Yuewei Lin, Heng Fan, Libo Zhang
ターゲットを知ること:ターゲット感知型Transformerによるより優れた空間時間動画接地
要約

Transformerは、エンドツーエンドのパイプラインと優れた性能により、空間的・時間的動的視覚検出(STVG)分野においてますます注目を集めている。既存のTransformerを用いたSTVG手法は、通常、ゼロで初期化された一連のオブジェクトクエリを用いており、マルチモーダル特徴との反復的相互作用を通じて、ターゲットの位置情報を徐々に学習する。このアプローチは単純であるが、ターゲット固有の手がかりを欠いているため、複雑な状況(たとえば、ノイズや遮蔽が存在する場合)において、マルチモーダル特徴との相互作用から判別性の高いターゲット情報を学習することが困難であり、性能の低下を引き起こす。この課題に対処するために、本研究では、与えられた動画・テキストペアからターゲット固有の手がかりを探索し、適応的にオブジェクトクエリを生成することを目的とした新しい「ターゲット認識型Transformer(TA-STVG)」を提案する。本手法の鍵は、連鎖的に作用する2つのシンプルながら有効なモジュール、すなわち「テキスト誘導型時系列サンプリング(TTS)」と「属性認識型空間活性化(ASA)」にあり、前者は全体的なテキスト情報を活用して動画からターゲット関連の時系列的手がかりを抽出し、後者は前段階で得られたターゲット認識型時系列手がかりから、オブジェクトの微細な視覚的属性情報をさらに掘り下げ、これをオブジェクトクエリの初期化に活用する。従来のゼロ初期化クエリと比較して、本手法におけるオブジェクトクエリは、与えられた動画・テキストペアから直接生成されるため、自然とターゲット固有の手がかりを含んでおり、マルチモーダル特徴との相互作用がより適応的かつ効果的となり、より判別性の高い情報を学習することができる。3つのベンチマークにおける実験結果から、TA-STVGは最先端の性能を達成し、ベースライン手法を顕著に上回ることを確認し、本手法の有効性を実証した。

ターゲットを知ること:ターゲット感知型Transformerによるより優れた空間時間動画接地 | 最新論文 | HyperAI超神経