2ヶ月前
言語クエリを用いたエージェントおよびアクション動画セグメンテーションのためのコンテキスト制御動的ネットワーク
{Yi Yang, Fan Ma, Cheng Deng, Hao Wang}
要約
言語クエリを用いたアクトルおよびアクション動画セグメンテーションは、動画内における指定された対象物の表現を抽出することを目的としている。このプロセスには包括的な言語推論と細粒度な動画理解が求められる。従来の手法は主に動的畳み込みネットワークを活用して視覚的表現と意味的表現をマッチングさせている。しかし、動的畳み込みはフレーム内の各領域を処理する際に空間的文脈を無視するため、複雑な状況下で類似の対象物を正確にセグメンテーションすることが困難である。このような課題を解決するため、本研究では文脈調節型動的畳み込みネットワークを構築した。具体的には、提案フレームワーク内に文脈調節型動的畳み込み演算を導入した。この演算では、特定領域に対するカーネルが、言語文と周辺の文脈特徴の両方から生成される。さらに、視覚特徴に動き情報を統合するための時系列エンコーダを設計し、クエリ記述とのより良いマッチングを実現した。A2Dセンテンス(Actor-Action Dataset Sentences)およびJ-HMDBセンテンスという2つのベンチマークデータセットにおける広範な実験結果から、本手法が最先端手法を顕著に上回ることを示した。