11日前

言語クエリ付き動画アーティストセグメンテーションのための協調的空間時間モデリング

Tianrui Hui, Shaofei Huang, Si Liu, Zihan Ding, Guanbin Li, Wenguan Wang, Jizhong Han, Fei Wang
言語クエリ付き動画アーティストセグメンテーションのための協調的空間時間モデリング
要約

言語クエリ駆動型動画アクトルセグメンテーションは、ターゲットフレームにおいて自然言語クエリで記述された動作を実行しているアクトルのピクセルレベルのマスクを予測することを目的としている。従来の手法では、ターゲットフレームの混合空間時系列特徴を抽出するために、動画クリップ全体に3次元畳み込みニューラルネットワーク(3D CNN)を一般エンコーダとして用いている。3D畳み込みは、クエリされた動作を実行しているアクトルを識別する上で有効である一方で、隣接フレームから不整合な空間情報を導入するという欠点を有しており、これによりターゲットフレームの特徴が混同され、セグメンテーション精度が低下する。本研究では、動画クリップ全体に3D時系列エンコーダを配置してクエリされた動作を認識し、ターゲットフレームに対して2D空間エンコーダを用いてクエリされたアクトルを高精度にセグメント化する、協調型の空間時系列エンコーダデコーダフレームワークを提案する。デコーダでは、2つのエンコーダから得られる空間的および時系列的特徴を柔軟に統合するため、言語誘導型特徴選択(Language-Guided Feature Selection, LGFS)モジュールを導入する。さらに、2つのエンコーダの各段階におけるマルチモーダル特徴相互作用を動的に実現するため、クロスモーダル適応調制(Cross-Modal Adaptive Modulation, CMAM)モジュールを提案する。本手法は、2つの代表的なベンチマークにおいて、従来手法よりも計算負荷を低減しつつ、新たな最先端の性能を達成した。

言語クエリ付き動画アーティストセグメンテーションのための協調的空間時間モデリング | 最新論文 | HyperAI超神経