11日前

言語橋渡し空間時系列相互作用を用いた参照動画オブジェクトセグメンテーション

Zihan Ding, Tianrui Hui, Junshi Huang, Xiaoming Wei, Jizhong Han, Si Liu
言語橋渡し空間時系列相互作用を用いた参照動画オブジェクトセグメンテーション
要約

参照動画オブジェクトセグメンテーションは、動画内の自然言語表現によって指されるオブジェクトに対して前景ラベルを予測することを目的としている。従来の手法は、3D ConvNetに依存するか、追加の2D ConvNetをエンコーダとして用いて空間時系列特徴を混合的に抽出するものであった。しかしながら、これらの手法は、デコード段階で遅延的かつ暗黙的な空間時系列相互作用が生じることにより、空間的な不整合や誤ったノイズ要因(false distractors)の問題を抱えていた。こうした課題を克服するため、本研究では、言語を中間的な橋渡しとして利用し、エンコーディング段階の初期に明示的かつ適応的な空間時系列相互作用を実現する「言語ブリッジ付き二重転送(Language-Bridged Duplex Transfer: LBDT)モジュール」を提案する。具体的には、時系列エンコーダ、参照語、空間エンコーダの間でクロスモーダルアテンションを実行することで、言語に関連する動きおよび外観情報の集約と転送を可能にする。さらに、デコード段階において、チャネル単位の活性化を通じて空間時系列的一貫性を持つ特徴をさらにノイズ除去・強調するため、「両側チャネル活性化(Bilateral Channel Activation: BCA)モジュール」も提案する。広範な実験の結果、本手法は4つの代表的なベンチマークにおいて、新たなSOTA(State-of-the-Art)性能を達成し、A2D SentencesおよびJ-HMDB Sentencesではそれぞれ6.8%および6.9%の絶対的なAP向上を実現した。また、計算負荷は約7倍低減されている。

言語橋渡し空間時系列相互作用を用いた参照動画オブジェクトセグメンテーション | 最新論文 | HyperAI超神経