HyperAIHyperAI

Command Palette

Search for a command to run...

言語クエリ付き動画アーティストセグメンテーションのための協調的空間時間モデリング

Tianrui Hui Shaofei Huang Si Liu Zihan Ding Guanbin Li Wenguan Wang Jizhong Han Fei Wang

概要

言語クエリ駆動型動画アクトルセグメンテーションは、ターゲットフレームにおいて自然言語クエリで記述された動作を実行しているアクトルのピクセルレベルのマスクを予測することを目的としている。従来の手法では、ターゲットフレームの混合空間時系列特徴を抽出するために、動画クリップ全体に3次元畳み込みニューラルネットワーク(3D CNN)を一般エンコーダとして用いている。3D畳み込みは、クエリされた動作を実行しているアクトルを識別する上で有効である一方で、隣接フレームから不整合な空間情報を導入するという欠点を有しており、これによりターゲットフレームの特徴が混同され、セグメンテーション精度が低下する。本研究では、動画クリップ全体に3D時系列エンコーダを配置してクエリされた動作を認識し、ターゲットフレームに対して2D空間エンコーダを用いてクエリされたアクトルを高精度にセグメント化する、協調型の空間時系列エンコーダデコーダフレームワークを提案する。デコーダでは、2つのエンコーダから得られる空間的および時系列的特徴を柔軟に統合するため、言語誘導型特徴選択(Language-Guided Feature Selection, LGFS)モジュールを導入する。さらに、2つのエンコーダの各段階におけるマルチモーダル特徴相互作用を動的に実現するため、クロスモーダル適応調制(Cross-Modal Adaptive Modulation, CMAM)モジュールを提案する。本手法は、2つの代表的なベンチマークにおいて、従来手法よりも計算負荷を低減しつつ、新たな最先端の性能を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています