3ヶ月前
テキストベースの動画セグメンテーションにおけるマルチモーダル特徴を用いた運動のモデリング
Wangbo Zhao, Kai Wang, Xiangxiang Chu, Fuzhao Xue, Xinchao Wang, Yang You

要約
テキストベースの動画セグメンテーションは、記述文を用いて動画内のターゲットオブジェクトをセグメント化することを目的としています。外観情報と言語的モダリティに加え、光学フローマップから得られる運動情報を統合することは重要であるものの、従来の研究ではほとんど無視されてきました。本論文では、外観、運動、言語的特徴を融合・アライメントする手法を提案し、高精度なセグメンテーションを実現します。具体的には、フレーム間の多モダリティ的かつ時系列的特徴を融合・集約可能なマルチモダリティ動画トランスフォーマーを設計しました。さらに、言語的特徴のガイドのもとで、各特徴レベルにおける外観特徴と運動特徴を段階的に融合するための言語誘導型特徴融合モジュールを構築しました。最後に、異なるモダリティから得られる特徴間の意味的ギャップを軽減するため、マルチモダリティアライメント損失を提案しています。A2D SentencesおよびJ-HMDB Sentencesの広範な実験により、最先端手法と比較して本手法の性能および汎化能力が検証されました。